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构 ， 以 及 如 何 使 用 LLVM 来 编写 自己 的 编译 器 。 


相 比 于 传统 的 介绍 编译 技术 的 书籍 ， 此 书 更 偏 癌 于 实战 ， 因 此 适 
合 熟 悉 编 译 但 对 LLVM 比 较 耻 生 的 人 员 ， 也 适合 正在 学 习 编 译 技术 并 
且 在 寻找 实战 机 会 的 人 员 。 


译 者 序 


LLVM 这 个 名 字源 于 Lower Level Virtual Machine， 但 这 个 项 目 并 
不 局 限于 创建 一 个 虚拟 机 ， 它 已 经 发 展 成 为 当今 炙手可热 的 编译 器 基 
础 框架 。LLVM 最 初 以 C/C++ 为 编译 目标 ， 近 年 来 经 过 众多 机 构 和 开源 
社区 的 努力 ，LLVM 已 经 能 够 为 ActionScript、D、Fortran、Haskell ^ 
Java、Objective-C、Swift、Python、Ruby、Rust、Scala 等 众多 语言 提 
供 编 译文 持 ， 而 一 些 新 兴 语 言 则 直接 采用 了 LLVM 作 为 后 端 。 可 以 
说 ，LLVM 对 编译 圳 领域 的 发 展 起 到 了 举足轻重 的 作用 。 


本 书 是 目前 为 数 不 多 的 介绍 LLVM 的 书籍 。 本 书 从 LLVM 的 构建 与 
安装 开始 说 起 ， 介 绍 了 LLVM 的 设计 思想 、LLVM 工 具 链 、 前 端 、 优 化 
器 、 后 端 ， 涵 盖 了 LLVM 的 绝 大 部 分 内 容 。 本 书 以 任务 驱动 的 方式 对 
内 容 进 行 介 绍 ， 围 绕 着 实现 TOY 语 言 的 编译 器 ， 每 一 章 市 都 会 带领 读 
者 编写 代码 。 在 第 2 章 实 现 了 编译 器 的 前 端 ， 第 4、5 章 逐步 实现 优化 
如， 后 面 的 章节 则 实现 了 编译 器 后 端 。 书 中 以 实践 的 方式 进行 讲述 ， 
既 曾 述 了 原理 ， 叉 让 读者 参与 到 编译 器 的 开发 当中 ， 这 一 方面 降低 了 
学 习 LLVM 的 门槛 ， 另 一 方面 也 让 读者 在 实践 中 理解 LLVM 的 细 和 。 


作为 译 者 ， 我 觉得 能 够 翻译 此 书 也 是 一 种 缘分 。 最 初 是 因为 一 次 
偶然 的 机 会 ， 我 接触 了 一 些 目 然 语言 处 理 的 内 容 ， 在 此 过 程 中 我 领悟 
了 词法 分 析 和 语法 分 析 是 怎么 一 回 事 ; 之 后 质 借 着 目 己 先 前 了 解 的 零 
零碎 碎 的 知识 ， 在 没有 系统 学 习 过 编译 原理 的 情况 下 写 出 了 目 己 的 第 
一 个 解释 器 (当然 它 很 不 完备 ) ; 接着 便 去 系统 学 习 编 译 原理 ， 由 于 
有 了 一 定 的 实践 基础 ， 理 解 那些 概念 也 轻松 了 许多 ; 而 关于 这 本 书 的 


翻译 ， 则 是 因为 在 豆 帮 上 看 到 了 一 位 豆 友 转发 的 消息 ， 遂 联系 出 版 社 
的 张 春 雨 老师 ， 最 后 在 翻译 此 书 的 过 程 中 ， 也 收获 了 很 多 。 


所 以 在 这 里 要 感谢 市 我 走 近 自然 语言 处 理 的 那 位 朋友 ， 要 感谢 转 
发 此 消息 的 那 位 豆 友 ， 还 要 感谢 博文 视点 的 张 春 雨 老师 。 人 生 充 满 了 
机 缘 巧合 ， 我 很 幸运 能 够 遇见 你 们 。 


与 此 同时 ， 我 也 希望 此 书 能 够 扬 开 编译 硕 的 面纱 ， 能 够 让 国内 更 
多 的 人 了 解 编译 技术 。 


王 欢 明 
2015 年 8 月 
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社区 的 活跃 页 献 者 ， 也 是 Tizen 编 译 絮 项 目的 一 员 ， 他 对 其 他 编译 器 也 
有 着 亲身 实践 经 验 。 


Mayur 在 印度 阿拉 哈巴 德 的 Motilal Nehru 国 家 技术 研究 所 获得 学 士 
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“我 要 感谢 我 的 家 人 和 朋友 ， 是 他 们 帮 我 料理 其 他 事务 并 且 鼓 励 
我 ， 才 使 得 我 能 够 完成 这 本 书 的 创作 。” 


Suyog Sarda 是 一 名 专业 的 软件 工程 师 ， 同 时 也 是 一 位 开源 软件 
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喘 实践 经 验 。 他 对 编译 如 的 主要 人 研究 在 于 代码 优化 和 向 量化 。 


除了 编译 器 之 外 ，Suyog 也 对 Linux 内 核 的 开发 很 感 兴趣 。 他 曾 在 
2012 年 于 迪拜 由 Birla 技 术 协 会 举办 的 IEEE 国 际 云 计 算 技 术 应 用 大 会 的 
议程 上 发 表 技 术 论 文 ， 题 为 “Secure Co-resident Virtualization in 


Multicore Systems by VM Pinning and Page Coloring ” ° 他 在 印度 普 纳 工 
程 大 学 获得 计算 机 学 士 学 位 。 目 前 居住 于 印度 班加罗尔 。 


“我 要 怀 调 我 的 家 人 和 朋友 ， 也 向 一 直 帮 助 我 的 LLVM 开 源 社区 
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关于 审 校 者 


Logan Chien 在 台湾 国立 大 学 获得 计算 机 科学 硕士 学 位 。 他 的 研 
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LLVM、Android。Logan 在 2012 年 加 入 LLVM 项 目的 开发 。 


Michael Haidl 是 一 名 高 性 能 计算 工程 师 ， 致 力 于 多 核 如 构 的 研 
究 ， 例 如 GPU、Intel Xeon Phi accelerator。 他 有 着 超过 14 年 的 C++ 开发 
经 验 ， 在 并 行 计算 方面 有 着 丰 宦 经 答 ， 在 多 年 的 工作 中 开发 出 多 种 编 
程 模 型 (CUDA) 。 他 同时 有 计算 机 科学 和 物理 学 的 学 位 。 目 前 ， 
Michael 在 德国 明 斯 德 大 学 担任 研究 助理 ， 一 边 写 着 他 的 PhD 论 文 ， 一 
边 致 力 于 研究 基于 LLVM 架 构 的 GPU 编 译 技术 。 


“我 要 感谢 每 天 用 微笑 和 爱 来 文 持 我 的 妻子 ， 同 时 也 向 为 
ClangLLVM 和 其 他 LLVM 项 目 付 出 茸 勤 工作 的 整个 LLVM 社 区 致 以 
谢意 。 正 是 有 了 他 们 ，LLVM 项 目 才 能 苗 壮 成 长 。” 


Dave (Jing) Tian 是 弗 罗 里 达 大 学 计算 机 和 信息 工程 学 院 的 研究 
助理 及 PhD 学 生 。 他 是 SENSEI 中 心 的 创始 人 之 一 。 他 的 研究 方向 包括 
系统 安全 、 和 骸 入 式 系统 安全 、 可 信 计 算 、 安 全 的 静态 代码 分 析 及 向 量 
化 。 他 对 Linux 内 核 开 发 和 编译 器 都 有 着 浓厚 的 兴趣 。 


Dave 化 了 一 年 时 间 人 研究 人 工 智能 和 机 器 学 习 ， 在 俄 勒 内 州 大 学 教 
过 Python 和 操作 系统 。 在 此 之 前 ， 他 在 阿尔 卡特 表 讯 公司 Linux 控 制 平 
台 开 发 组 从 事 过 4 年 时 间 的 软件 开发 工作 。 他 在 中 国 获得 学 士 学 位 ， 以 
及 电气 工程 的 硕士 学 位 。 你 可 以 在 root@davejingtian.org 及 
http:/davejingtian.org 了 解 他 。 


“我 要 感谢 这 本 书 的 作者 ， 他 做 得 很 好 。 也 感谢 Packt 出 版 社 的 
编辑 们 ， 是 他 们 润色 了 这 本 书 并 且 给 我 审 校 这 本 书 的 机 会 。” 


=La eN 


Bl) 


ll 


程序 员 在 编程 时 没有 一 刻 可 以 离开 编译 器 。 人 简单 来 说 ， 所 谓 编 译 
右 束 古 把 人 类 可 读 的 高 级 语言 映射 到 机 器 执 行 码 。 但 你 知道 这 里 面 发 
生 了 什么 吗 ? 编译 絮 在 生成 优化 过 的 机 器 码 之 前 还 做 了 很 多 处 理工 
作 ， 一 个 好 的 编译 项 包含 了 很 多 复杂 的 算法 。 


这 本 书 介绍 了 编译 的 几 个 阶段 ， 前端 处 理 、 代 码 优 化 、 代 码 生 成 
等 。 为 了 将 这 个 复杂 的 过 程 简化 ，LLVM 使 用 了 模块 化 的 思想 ， 使 得 
每 一 个 编译 阶段 都 被 独立 出 来 ;LLVM 使 用 面向 对 象 的 C+t+ 语 言 完 
成 ， 为 编译 和 右 开 发 人 员 提供 了 易 用 而 丰富 的 编程 接口 和 API。 所 以 ， 
LLVM 可 能 是 最 容易 学 习 的 编译 万 框 加 了 。 


作为 作者 ， 我 们 认为 简单 的 解决 方案 往往 会 比 复杂 的 解决 方案 更 
加 奏效 ， 通 过 这 本 书 ， 我 们 将 会 了 解 许 多 编译 技术 ， 它 能 提升 你 的 能 
力 ， 让 你 了 解 编译 选项 ， 理 解 编译 过 程 。 


我 们 也 相信 ， 那 些 从 事 编 译 器 开发 的 程序 员 会 从 本 书 收益 民 多 ， 
因为 对 编译 事 拉 术 的 了 解 会 帮助 他 们 写 出 更 好 的 代码 。 


我 们 希望 你 能 喜欢 这 本 书 ， 孚 受 这 本 书 提供 的 扩 术 盛 实 ， 也 能 开 
AB OAs NR IS? 让 我 们 开始 吧 。 


本 书 概述 


BIE: LLVM 设 计 与 使 用 。 本章 介绍 了 模块 化 的 LLVM 基 础 架构 
设计 ， 让 你 学 会 如 何 下 载 安装 LLVM 和 Clang， 通 过 一 些 例 子 来 了 解 如 
何 使 用 LLVM 工 作 ， 也 会 介绍 一 些 其 他 的 编译 器 前 端 。 


第 2 章 : 实现 编译 器 前 端 。 本章 介绍 了 如 何 为 一 门 编程 语言 编写 
一 个 编译 器 前 端 ， 我 们 通过 为 一 门 玩具 语言 写 一 个 玩具 编译 器 ， 来 了 
解 如 何 把 前 端 语言 映射 到 LLVM IR ° 


第 3 章 : 扩展 前 端 并 增加 JIT 文 持 。 本 章 为 这 门 玩具 语言 增加 了 一 
些 现 代 语言 的 高 级 竺 性， 以 及 对 前 问 的 JIT 文 持 。 


第 4 章 : 准备 优化 。 本 章 介 绍 LLVM IR 的 Pass 结 构 ， 以 及 不 同 的 优 
化 级 别 和 每 一 级 别 上 的 优化 技术 。 我 们 也 将 看 到 如 何 一 步 一 步 编写 目 
己 的 LLVM Pass © 


Boe: 实现 优化 。 本 章 介 绍 如 何在 LLVM IR 上 实施 诸多 优化 
Pass， 以 及 在 LLYM 开 源 代 码 上 实现 一 些 癌 量化 技术 。 


BOE: 平台 无 天 代码 生成 高 。 本 草 介 绍 了 一 个 平台 无 天 代码 生 
成 妖 的 抽象 结构 ， 如 何 把 LLYM IR 转 换 到 有 向 无 环 图 (DAG) ， 以 及 
如 何 进一步 生成 目标 平台 机 器 码 。 


第 7 章 : 机 器 码 优化 。 本 章 介 绍 了 DAG 的 优化 过 程 ， 目 标 寄存 器 
分 配 算法 ， 还 介绍 了 Selection DAG 上 的 各 种 优化 技术 及 不 同 寄存 需 的 
分 配 技 术 。 


BEE: 实现 LLVM 后 端 。 本 章 介绍 了 目标 架构 ， 包 括 寄 存 器 、 指 
令 集 、 调 用 约定 、 编 码 、 子 平台 特性 等 。 


ROE: LLVM 项 目 最 佳 实践 。 本 章 介 绍 了 一 些 使 用 LLVM IR 做 代 
码 分 析 的 其 他 项 目 。 需 要 记 住 的 是 ，LLVM 不 仅仅 是 一 个 编译 器 ， 而 
旦 是 一 个 编译 嚣 框架。 本章 介 绍 了 一 段 可 应 用 到 各 种 项 目的 代码 ， 可 
从 中 获取 有 用 信息 。 


阅读 表 景 

你 只 需要 一 台 Linux 计 算 机 ， 最 好 是 Ubuntu 系统 ， 就 能 完成 本 书 的 
大 部 分 例子 。 你 也 需要 一 个 简单 的 文本 或 代码 编辑 器 、 网 络 连接 ， 以 
及 一 个 浏览 器 。 我 们 建议 安装 两 个 文件 的 合并 包 ， 它 在 大 部 分 Linux 平 
台 都 能 运行 。 


读者 对 象 


本 书 适合 那些 熟悉 编译 右 概 念 并 且 想 理解 学 习 LLVM 的 程序 员 。 


本 书 也 适合 不 直接 参与 编译 亏 开 发 但 参与 大 量 代码 开发 的 程序 
员 。 具 备 一 定 的 编译 器 知识 将 会 使 你 写 出 更 加 优秀 的 代码 。 


内 容 组 织 


在 此 书 中 你 会 频繁 地 看 到 一 些 标题 ， 例 如 准备 工作 、 详 细 步 骤 、 
工作 原理 、 更 多 内 容 、 另 请 参阅 。 


为 了 更 好 地 呈现 本 书 内 容 ， 我 们 采用 了 如 下 的 组 织 方式 。 


准备 工作 


这 部 分 对 章节 做 了 概述 ， 并 且 描述 了 如 何 配置 软件 及 其 他 工具 。 


详细 步骤 


工作 原理 

这 部 分 涵盖 了 前 一 部 分 的 详细 解释 - 
更 多 内 容 

这 部 分 涵盖 了 关于 章节 的 更 多 信息 
73182 pg 

这 部 分 涵盖 了 参考 资料 的 链接 。 
约定 


在 本 书 中 你 会 发 现 大 量 用 不 同 格式 展示 的 文字 ， 这 里 举例 说 明 它 


们 的 涵义 。 


藤 入 人 代码、 数据库 表 名 、 目 孙 名 、 文 件 名 、 文 件 扩展 名 、 路 径 
名 、URL、 用 户 输入 、Twitter 用 如 下 方式 展示 : “我 们 可 以 用 include 指 


令 引 入 其 他 的 上 下 文 。” 
代码 块 用 如 下 格式 : 


primary :- identifier expr : 


-numeric expr 


:zparan expr 


当 我 们 想 强 调 部 分 代码 块 时 ， 相 关 行 会 使 用 粗 体 : 


primary := identifier expr 


;-numeric expr 


:zparan expr 


命令 行 输入 和 输出 用 如 下 格式 : 


$ cat testfile.11 


新 的 术语 和 重要 单词 也 会 用 黑体 显示 。 你 在 屏幕 上 看 到 的 内 容 ， 
AIEN EIEREN, GE: “ 单 击 下 一 步 将 进入 下 一 屏 ”。 


警告 或 者 重要 内 容 会 在 这 块 展示 


EGA e 


下 载 示例 代码 


你 可 以 从 http://www.broadview.com.cn 下 载 所 有 已 购买 的 博文 视点 
书籍 的 示例 代码 文件 。 


BIA 


HAP CAR Ae UR IN EH VERS E, (PRIA EE © 
如 果 你 发 现 了 书 中 的 错误 ， 包 括 正文 和 代码 中 的 错误 ， 请 告诉 我 们 ， 
我 们 会 非常 感激 。 这 样 ， 你 不 仅 帮 助 了 其 他 读者 ， 也 帮助 我 们 改进 后 
续 的 出 版 % 如 发 现任 何 勘 座 ， 可 以 在 博文 视点 网 站 相应 图 书 的 页 面 拓 
区 勘误 信息 。 一 旦 你 找到 的 错误 被 证 实 ， 你 提交 的 信息 束 会 被 接受 ， 
我 们 的 网 站 也 会 发 布 这 些 勘误 信息 。 你 可 以 随时 浏 哎 图 书页 面 ， 查 看 
已 发 布 的 勘误 信息 。 


第 1 章 LLVM 设 计 与 使 用 


KE s EA NIER o 


e 模块 化 设计 

© 交叉 编译 Clang/LLVM 

。 将 C 源 码 转换 为 LLVM 汇 编码 

。 将 LLVM IR 转 换 为 bitcode 

。 将 LLVM bitcode 转 换 为 目标 平台 汇编 码 
。 将 LLVM bitcode 转 回 为 LLVM 汇 编码 

。 转换 LLVM IR 

。 链接 LLVM bitcode 

e 执行 LLVM bitcode 

。 使 用 C 语 言 前 端 
。 使 用 GO 语言 前 端 
e 使 用 DragonEgg 


概述 


本 蔬 介 绍 LLVM 的 设计 理念 ， 以 及 如 何 使 用 LLVM 提 供 的 诸多 工 
具 。 你 将 了 解 如 何 把 C 语 言 代 码 编 译 为 LLVM IR (Intermediate 
Representation 中 间 码 ) 以 及 如 何 把 它 转 为 其 他 多 种 形式 。 你 也 会 
看 到 在 LLVM 的 源码 树 中 代码 是 如 何 组 织 的 ， 以 及 如 何 使 用 LLVM 目 己 
编写 一 个 编译 器 。 


Clang 


模块 化 设计 


与 其 他 编译 器 (例如 GNU Compiler Collection——GCC ) 不 
同 ，LLVM 的 设计 目标 是 成 为 一 系列 的 库 。 本 市 以 LLVM 优 化 器 
(optimizer) 为 例 来 解释 这 个 概念 ， 因 为 它 的 设计 就 是 基于 库 的 。 它 
允许 你 选择 各 个 Pass (B) 的 执行 顺序 ， 也 能 够 选择 执行 哪些 优化 
Pass 一 一 也 就 是 说 ， 有 一 些 优化 对 你 设计 的 系统 是 没有 帮助 的 ， 只 
少数 优化 会 针对 你 的 系统 。 反 观 传统 的 编译 喜 优 化 硕 ， 它 们 通常 是 由 
大 量 高 度 耦 合 的 代码 组 成 ， 很 难 拆 分 成 容易 理解 和 使 用 的 小 模块 。 而 
在 LLVM 中 ， 如 有 果 你 想 了 解 特定 的 优化 器， 是 不 需要 知道 整个 系统 是 
如 何 工作 的 。 你 只 需 选 择 一 个 优化 絮 并 使 用 它 ， 无 须 担 心 其 他 依赖 它 
的 组 件 。 


在 我 们 开始 本 节 之 前 ， 我 们 需要 知道 一 点 天 于 LLVM 沪 编码 的 知 
识 。LLVM 的 代码 有 3 种 表示 形式 : 内存 编译 器 中 的 IR、 存 于 人 磁盘 的 
bitcode ， 以 及 用 户 可 读 的 汇编 码 。LLVM IR 是 基于 静态 单 赋值 山 
(Static Single Assignment SSA) 的 ,并且 提供 了 类 型 安全 性 、 弃 
层 操 作 性 、 灵 活性 ， 因 此 能 够 清楚 表达 绝 大 多 数 高 级 语言 。 这 种 表示 
形式 贯穿 LLVM 编 译 的 各 个 阶段 。 事 实 上 ，LLVM IRAJ BN — P 
足够 底层 的 通用 IR， 只 有 这 样 ， 高 级 语言 的 诸多 特性 才能 够 得 以 实 
现 。 同 样 ，LLVM 了 组 织 良 好 ， 也 有 具备 不 错 的 可 读 性 。 如 果 你 对 理解 
本 下 提 到 的 LLVM 汇 编码 有 任何 疑问 ， 请 参考 本 节 结 尾 的 “ 另 请 参 
阅 * 一 节 。 


SSA 于 1980 年 由 IBM 开 始 研 究 ， 由 于 它 的 一 些 民 好 性 质 ， 之 后 在 
编译 器 领域 得 到 广泛 应 用 ， 包 括 LLVM e 


准备 工作 


在 开始 之 前 ， 我 们 需要 在 本 机 安装 LLVM 工 具 链 ， 特 别 是 opt 工 
He 


详细 步骤 


我 们 将 在 同一 段 代 码 上 逐步 实施 两 个 不 同 的 优化 ， 来 观察 它们 分 
别 是 如 何 改变 代码 的 。 


1. 首先 ， 我 们 来 写 一 段 代 码 用 作 优 化 右 的 输入 ， 在 这 里 创建 
testfile.1] 文件 。 


$ cat testfile.ll 
define i32 @test1(i32 %A) { 
%B = add 132 %A, 0 


ret 132 %B 


define internal i32 Qtest(i32 %X, 132 %dead) { 


ret 132 %X 


define 132 @caller() { 
%A = call 132 Qtest(132 123, 132 456) 


ret 132 %A 


2. 现在 ， 使 用 opt 工 具 来 进行 一 个 优化 一 一 指令 合并 。 


$ opt -S -instcombine testfile.ll -o output1.11 


3. 查看 输出 ， 看 看 instcombine 优 化 是 如 何 进 行 的 : 


$ cat output1.11 


; ModuleID = 'testfile.11' 


define i32 @test1(i32 %A) { 


ret 132 %A 


define internal i32 Qtest(i32 %X, 132 %dead) { 


ret 132 %X 


define 132 @caller() { 
%A = call i32 @test(i32 123, 132 456) 


ret 132 %A 


4. 使 用 opt 工 具 进行 无 用 参数 消除 (dead-argument-elimination) 优 


化 : 


$ opt -S -deadargelim testfile.11 -o output2.11 


5. 查看 输出 ， 看 看 deadargelim 优 化 的 效果 如 何 : 


$ cat output2.11 

; ModuleID - testfile.ll' 

define i32 @test1(i32 %A) { 
%B = add 132 %A, 0 


ret i32 %B 


define internal i32 Qtest(i32 %X) { 


ret 132 9X 


define i32 Qcaller() { 
%A = call i32 @test(i32 123) 


ret 132 %A 


工作 原理 


在 前 面 的 代码 中 ， 我 们 可 以 看 到 ， 第 1 个 命令 运行 instcombine 
Pass， 会 将 指令 合并 ， 因 此 %B = add i32 96A, 0; ret i32 %B 被 优化 为 ret 
i32 %A， 并 且 没 有 改变 原来 的 代码 ， 而 是 产生 了 新 的 代码 。 


在 第 2 个 样 例 中 ， 运 行 deadargelim pass， 对 第 一 个 画 数 没 有 任何 影 
啊 ， 但 优化 对 第 2 个 函数 有 所 影响 一 一 前 一 次 优化 中 没有 修改 的 部 分 代 
码 在 本 次 优化 中 被 改变 ， 无 用 的 参数 被 消除 了 。 


LLVM 优 化 器 为 用 户 提供 了 不 同 的 优化 Pass， 但 整体 的 编写 风格 一 
致 。 对 每 个 Pass 的 源码 编译 ， 得 到 一 个 Object 文件 ， 之 后 这 些 不 同 的 文 
件 再 链接 得 到 一 个 库 。Pass 之 间 硝 合 很 小 ， 而 Pass 之 间 的 依赖 信息 由 
LLVM Pass 管 理 器 (PassManager) 来 统一 管理 ， 在 Pass 运 行 的 时 候 
会 进行 解析 。 下 面 的 图 片 展 示 了 每 个 Pass 如 何 关 联 到 指定 库 中 的 特定 
的 Object 文件 。 图 中 ，PassA 中 PassA.o 5| H f LLVMPasses.a , TH 
定义 的 Pass 中 MyPass.o Object 文件 引用 了 不 同 的 库 MyPasses.a 。 


下 载 样 例 代码 


你 可 以 从 http://www.broadview.com.cn 为 你 购买 的 博文 视点 图 书 
下 载 示例 代码 ， 按 提示 注册 后 ， 找 到 本 书页 面 即 可 开始 下 载 。 


PassManager PM; 
PM.add(createPassA(); 
PM.add(createPassB()); 


LLVMPasses.a 


PM.add(createMYPass()); 


MyPasses.a 


更 多 内 容 


与 优化 器 相似 ，LLVM 代 码 生 成 器 (code generator) 也 采用 了 模 
块 的 设计 理念 ， 它 将 代码 生成 问题 分 解 为 多 个 独立 Pass: 指令 选择 、 
寄存 器 分 配 、 指 令 调度 、 代 码 布局 优化 、 代 码 发 射 。 同 样 ， 也 有 许多 
内 建 的 Pass， 它 们 默认 执行 ， 但 用 户 可 以 选择 只 执行 其 中 一 部 分 。 


。 在 接 下 来 的 章节 中 ， 我 们 会 看 到 如 何 编写 目 己 的 Pass， 并 且 能 够 
选择 执行 哪些 优化 Pass 及 其 执行 顺序 。 如 果 想 详细 了 解 ， 请 参见 
http://www.aosa book.org /en/llvm.html ° 

。 关于 LLVM 了 的 更 多 人 信息， 请 参见 
http://llvm.org/docs/LangReg.html ° 


交叉 编译 Clang/LLVM 


所 谓 交 叉 编译 ， 指 的 是 我 们 能 够 在 一 个 平台 (例如 x86) 编译 并 构 
建 二 进 制 文 件 ， 而 在 另 一 个 平台 (例如 ARM) 运行 。 编 译 二 进 制 文件 
的 机 器 称 为 主机 (host) ， 而 运行 生成 的 二 进 制 文件 的 平台 我 们 称 为 
目标 平台 (target) 。 为 相同 平台 (主机 与 目标 机 器 相同 ) 编译 代码 我 
们 称 为 本 机 编译 (native assembler) ， 而 当主 机 与 目标 机 器 为 不 同 平 
台 时 编译 代码 则 称 为 交叉 编译 (cross-compiler) 


本 万 将 展示 LLVM 交 叉 编 译 的 技术 ， 你 可 以 为 与 主机 平台 不 同 的 
平台 编译 LLVM， 因 此 你 能 够 在 所 需 的 特定 目标 平台 使 用 构建 的 二 进 
制 文件 。 在 这 里 ， 区 叉 编 译 将 通过 在 x86_64 主 机 平台 为 ARM 目 标 平台 
编译 LLVM 来 展示 ， 编 译 出 的 可 执行 文件 能 够 在 ARM 架 构 的 平台 上 执 
行 。 


准备 工作 


在 此 之 前 你 需要 为 系统 (主机 平台 ) 安装 以 下 包 GEF) : 


cmake 
ninja-build (2€ A Ubuntuf')backport) 


gcc-4.x-arm-linux-gnueabihf 


gcc-4.x-multilib-arm-linux-gnueabihf binutils-arm-linux-gnueabihf 


libgcc1-armhf-cross 


libsfgcc1-armhf-cross 


libstdc++6-armhf-cross 


e libstdc++6-4.x-dev-armhf-cross 


e install llvm on your host platform 


详细 步骤 


为 了 从 主机 架构 (这 里 是 X86_64 平台 ) 为 ARM 目 标 平台 编译 代 
码 ， 你 需要 执行 以 下 步骤 。 


1. 使 用 以 下 cmake 参 数 调用 cmake， 构 建 LLVML 


-DCMAKE_CROSSCOMPILING=True 

-DCMAKE_INSTALL_PREFIX=< 工 具 链 安装 目录 (可 选 ) > 
-DLLVM_TABLEGEN=< 已 安装 的 LLVM 工 具 链 目录 >/1lvm-tblgen 
-DCLANG_TABLEGEN=< 已 安装 的 LLVM 工 具 链 目录 >/clang-tblgen 

-DLLVM DEFAULT TARGET TRIPLE-arm-linux-gnueabihf 

-DLLVM TARGET ARCH-ARM 

-DLLVM TARGETS TO BUILD-ARM 

-DCMAKE CXX FLAGS-'-target armv7a-linux-gnueabihf -mcpu=cortex- 
a9 

-I/usr/arm-linux-gnueabihf/include/c*-/4.x.x/arm-linux- 
gnueabihf/ 

-I/usr/arm-linux-gnueabihf/include/ -mfloat-abi=hard -ccc-gcc- 
name 


arm-1linux-gnueabihf-gcc' 


2. WREE FA E TRUE ee, JAAT: 


$ cmake -G Ninja<LLVM 源 码 目 录 >< 上 面 的 选项 > 


如 果 使 用 Clang 作 为 交 义 编译 器 ， 需 要 在 path 环 境 变 量 中 包含 
Clang/Clang++: 


$ CC='clang' CXX='clangt+' cmake -G Ninja < 源码 目录 > < 上 面 的 选项 


> 


3. 编译 LLVM， 人 简单 类 型 : 


$ ninja 


4. 在 成 功 编译 LLVMVClang 之 后 ， 只 需要 用 如 下 命令 安装 一 下 : 


$ ninja install 


如 果 你 指定 了 DCMAKE_INSTALL_PREFIX 参 数 ， 则 会 在 install- 
dir 这 个 位 置 创建 sysroot l! 。 


工作 原理 


cmake 包 用 来 构建 所 需 平台 的 LLVM 工 具 链 ， 你 需要 为 其 指定 参 
数 ; tblgen 工 具 用 于 把 目标 平台 的 描述 文件 转换 成 C++ 代码 ， 因 此 ， 通 
过 它 可 以 获得 目标 平台 的 相关 信息 比如 指令 集 、 寄 存 器 数量 等 。 


如 条 用 Clang 作 为 交叉 编译 器 ， 构 建 ARM 平 台 的 后 端 时 可 能 会 
出 现 一 个 问题 ， 即 在 地 址 无 关 代 码 (position-independent code 
PIC) 生成 过 程 中 的 绝对 地 址 重 定向 ， 这 时 候 可 以 关闭 PIC 作为 解 


决 方案 。 


在 主机 上 ， 由 于 架构 的 不 同 ， 古 无 法 使 用 ARM 平 台 的 库 的 ， 所 
以 你 可 以 下 载 一 份 ， 或 者 目 己 编译 构建 。 


将 C 源 码 转 换 为 LLVM 沪 编码 


AS AE DE HIC HE SH Y 
IR © 


准备 工作 


你 需要 安装 Clang 并 且 把 它 添加 到 PATH 环 境 变 量 中 。 


Clang， 把 C 语 言 源 码 转 换 为 LLVM 


详细 步骤 


1. 首先 在 multiply.c 文 件 中 编写 一 段 C 语 言 代码 ， 如 下 : 


$ cat multiply.c 
int mult() ( 

int a =5; 

int b = 3; 

int c = a * b; 
return c; 


} 


2. 使 用 以 下 命令 来 将 C 语 言 代码 转换 成 LLVM IR: 


$ clang -emit-llvm -S multiply.c -o multiply.11 


3. 生成 如 下 的 LLVM IR: 


$ cat multiply.11 

; ModuleID - 'multiply.c' 

target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128" 
target triple - "x86 64-unknown-linux-gnu" 

; Function Attrs: nounwind uwtable 


define i32 @mult() #0 { 


%a = alloca i132, align 4 

%b = alloca i132, align 4 

%c = alloca i32, align 4 

store 132 5, 132* %a, align 4 
store 132 3, 132* %b, align 4 
%1 = load 132* %a, align 4 

%2 = load 132* %b, align 4 

%3 = mul nsw i32 %1, %2 

store 132 %3, 132* %c, align 4 
%4 = load 132* %c, align 4 


ret 132 %4 


或 者 通过 ccl 生 成 IR: 


$ clang -cc1 -emit-llvm testfile.c -o testfile.1l 


工作 原理 


将 C 语 言 代 码 编译 为 LLVM IR 的 过 程 从 词法 分 析 开 始 一 一 将 C 语 言 
源码 分 解 成 token 流 ， 每 个 token 可 表示 标识 人 特 、 字 面 量 、 运 算 和 从 等 ; 
token 流 会 传递 给 语法 分 析 器 ， 语 法 分 析 器 会 在 语言 的 CFG (Context 
Free Grammar ， 上 下 文 无 关 文 法 ) 的 指导 下 将 token 流 组 织 成 AST 


(抽象 语法 树 ) ; 接 下 来 会 进行 语义 分 析 ， 检 查 语义 正确 性 ， 然 后 生 
成 IR。 


这 里 我 们 使 用 Clang 前 端 来 将 C 代 码 转 为 IR 文 件 。 


PRAN 
。 在 第 2 章 中 ， 我 们 将 会 看 到 词法 分 析 、 语 法 分 析 和 代码 生成 的 工作 


原理 。 关 于 LLVM IR 的 基本 信息 ， 请 参阅 
http://llvm.org/docs/LangRef.html ° 


将 LLVM IR 转 换 为 bitcode 


本 节 将 介绍 如 何 从 LLVM IR 来 生成 bitcode。LLVM bitcode (K 
为 字 节 码 一 一 bytecode) 由 两 部 分 组 成 : 位 流 (bitstream， 可 类 比 字 市 
流 ) ， 以 及 将 LLVM IR 编 码 成 位 流 的 编码 格式 。 


准备 工作 


你 需要 安装 llvm-as 工 具 ， 并 添加 a 到 PATH 环 境 变 量 中 。 


详细 步骤 


HITA FEIR ° 


1. 首先 创建 LLVM IR 代 码 作 为 lvm-as 的 输入 : 


$ cat test .11 
define i32 @mult(i32 %a, 132 %b) #0 { 
%1 = mul nsw i32 %a, %b 


ret 132 %1 


2. 执行 以 下 命令 把 test.] 文件 的 LLVM IR 转 为 bitcode 格 式 : 


llvm-as test.ll -o test.bc 


3. 输出 到 testbc 文 件 ， 它 是 位 流 格式 的 ;由 于 它 是 二 进 制 的 ， 如 
果 我 们 直接 看 它 的 内 容 ， 会 发 现 : 


ls cat testbc 
BCoe! 


LA 
CE ELE 
Mibe 


2DSH 
Jo | #01 
E 


Re 
Wiep eya ee] olde coiii hoov (e6eowHweeroos(vHovoafiioiie + 
2" d 


PmzPmov@z te 图 epeq xe} iech ie: ee;e[Hücoeecee; oaea e R HRB ecseiBeyxsea 
eel 


lecBee [ia [igec-e[exetpyHeppzp[Uxep a Elioez 


因为 它 是 bitcode 文 件 ， 所 以 会 看 到 一 堆 乱 码 。 查 看 它 的 内 容 的 最 
好 方式 是 使 用 hexdump 工 具 ， 下 面 的 截图 是 hexdump 的 输出 : 


-C test.bc 
42 43 cO de 
02 00 00 00 
06 10 32 39 
80 Oc 45 02 ..E.B..Bd.2.8..K] 
Oa 32 32 88 22. Hc. Cha 2B | 
e4 48 Oe 

04 19 46 

20 64 85 

12 4c 86 

94 81 80 

00 00 00 

c4 e1 1c 

79 78 07 

33 Oc 42 

38 84 83 

74 70 07 

78 87 70 

30 Of e3 

21 1d c2.6 
03 3c bc 

07 37 68 

76 28 07 

18 87 72 

cO 0e ec 

32 01 00 

81 08 32 

10 04 00 


工作 原理 


llvm-as Hl ZÉLLVMBS IL 2888 9» E ELLVM IRAE Nbitcode (W13 
把 普通 的 汇编 码 转 成 可 执行 文件 ) 。 在 之 前 的 命令 中 ， 它 使 用 test.1 作 
为 输入 ，test.bc 作 为 bitcode 输 出 文件 。 


更 多 内 容 


为 了 把 LLVM IR 转 为 bitcode ， 我 们 引入 了 区 块 (block) 和 记录 
(record) 的 概念 。 区 块 表 示 位 流 的 区 域 ， 例 如 一 个 函数 体 、 符 号 表 
等 。 每 个 区 块 的 内 容 都 对 应 一 个 特定 的 ID ， 例 如 LLVM IR FP KAURA 


ID12 ° RH — TOO RENI EBU, "ELI T XETR ^ 
ATQAE SEEN ^ RA il Jr ASE A o 


LLVM IR 的 bitcode 文 件 由 一 个 简单 的 封装 结构 封装 。 结 构 包 括 一 
个 描述 文件 段落 偏 移 量 的 简单 描述 头 ， 以 及 内 航 BC 文 件 的 大 小 。 


PRAAN 


。 天 于 LLVM 位 流 文 件 格式 的 更 多 信息 ， 请 参阅 


http://Ilvm.org/docs/BitCodeFormat.html#abstract ° 


将 LLVM bitcode 转 换 为 目标 平台 
汇编 码 


本 市 介 绍 如 何 将 LLVM bitcode 文 件 转换 为 目标 机 天 的 汇编 码 。 


准备 工作 


你 需要 安装 来 自 LLVM 工 具 链 的 LLVM 静 态 编译 器 llc。 


详细 步骤 


执行 以 下 步骤 。 


1. Bj — T» Gl] 4 WY test.bc bitcode 文 件 可 作为 llc 的 输入 ， 通 过 以 下 


令 可 把 LLVM bitcode 转 换 为 汇编 码 : 


$ llc test.bc -o test.s 


E 
A> 
IN 
mit 


2. 输出 到 test.s 汇 编 文 件 ， 可 通过 以 下 


$ cat test.s 

.text 

.file "test.bc" 

.globl mult 

.align 16, 0x90 

.type mult, @function 

mult: # @mult 
.cfi_startproc 

# BB#O: 

Pushq %rbp 

.Ltmpo: 

.Cfi def cfa offset 16 
.Ltmpi: 

.Cfi offset %rbp, -16 

movq %rsp, %rbp 

.Ltmp2: 

.Cfi def cfa register %rbp 
imull %esi, %edi 


movl %edi, %eax 


Hp 


popq %rbp 

retq 

.Ltmp3: 

.size mult, .Ltmp3-mult 


.cfi endproc 


3. 或 者 通过 Clang 从 bitcode 文 件 格式 生成 汇编 码 ， 需 要 使 用 -S 参 
数 ， 得 到 test.s 汇 编 文 件 和 test.bc 位 流 格 式 文件 : 


$ clang -S test.bc -o test.s -fomit-frame-pointer # 使 用 clang 前 


端 


输出 的 tests 文 件 和 之 前 样 例 的 一 样 。 另 外 ， 我 们 使 用 了 fomit- 
frame- pointer 人 参数 ， 因 为 Clang 默 认 不 消除 帧 指针 而 lc 却 默认 消除 。 


工作 原理 


lc 命令 把 LLVM 输入 编译 为 特定 架构 的 汇编 语言 ， 如 有 果 我 们 在 之 
前 的 命令 中 没有 为 其 指定 任何 架构 ， 那 么 默认 生成 本 机 的 汇编 码 ， 即 
调用 llc 命 令 的 主机 。 如 果 你 想 更 进一步 由 汇编 文件 得 到 可 执行 文件 ， 
你 还 可 以 使 用 汇编 器 和 链接 器 


更 多 内 容 


在 以 上 命令 中 加 入 -march=architechture 人 参数 ， 可 以 生成 特定 目标 
染 构 的 汇编 码 。 使 用 -mcpu=cpu 参 数 则 可 以 指定 其 CPU， 而 -reg alloc 
=basic /greedy/ fast/pbqp 则 可 以 指定 寄存 器 分 配 类 型 。 


将 LLVM bitcode 转 回 为 LLVM 汇 编 
n3 


AS 4r £g up fap 38 3t Js IC 28 T. A llvm-dis #2 LLVM bitcode £& [El 7j 
LLVM IR ° 


准备 工作 


你 需要 安装 ]lvm-dis 工 具 。 


详细 步骤 


为 了 展示 如 何 将 bitcode 文 件 转 为 了 月 ， 使 用 “将 LLVM IR £ HRD 
bitcode” 那 一 节 得 到 的 test.bc 文 件 作 为 lvm-dis 工 具 的 输入 。 执 行 以 下 步 


W o 


1. 执行 以 下 命令 把 bitcode 文 件 转换 为 我 们 之 前 创建 过 的 英文 件 : 


$ llvm-dis test.bc -o test.11 


2. 查看 其 生成 的 LLVM IR: 


| $ cat test.11 


; ModuleID = 'test.bc' 


define i32 @mult(i32 %a, 132 %b) #0 { 
%1 = mul nsw i32 %a, %b 


ret 132 %1 


输出 的 test.1 文 件 和 我 们 之 前 在 “将 LLVM IR 转 换 为 bitcode” 那 一 市 
得 到 的 相同 。 


工作 原理 


llvm-dis 命 令 即 是 LLYVM 反 汇编 器， 它 使 用 LLVM bitcode 文 件 作为 
输入 ， 输 出 LLVM IR。 


这 里 ， 输 入 文件 是 test.bc， 通 过 llvm-dis 工 具 转 为 test.ll ° 


如 果 省 上 略 文件 名 ，llvm-dis 工 具 会 从 标准 输入 读 取 输入 。 


转换 LLVM IR 


ANT INZAGE opt TRIERER ARHI, 


多 个 优化 。 
准备 工作 
你 需要 先 安装 opt 工 具 


详细 步骤 


使 用 以 下 命令 用 opt 执 行 转换 Pass。 


$opt -passname input.11 -o output.11 


以 及 对 了 代码 实施 的 


1. 来 看 一 个 真实 的 样 例 ， 我 们 采用 “将 C 源 码 编译 为 LLVM 汇 编 
码 ” 那 一 和 的 C 语 言 代码 作为 输入 ， 创 建 等 价 的 LLVM IR: 


$ cat multiply.c 
int mult() { 

int a =5; 

int b = 3; 

int c =a * b; 
return c; 


} 


2. 转化 成 IR 并 输出 内 容 ， 我 们 会 得 到 以 下 未 进行 优化 的 输出 : 


$ clang -emit-llvm -S multiply.c -o multiply.11 

$ cat multiply.ll 

; ModuleID - 'multiply.c' 

target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128" 


target triple - "x86 64-unknown-linux-gnu" 


; Function Attrs: nounwind uwtable 
define i32 @mult() #0 { 
%a = alloca i32, align 4 
%b = alloca i32, align 4 
%c = alloca i32, align 4 
store i32 5, 132* %a, align 4 
store 132 3, 132* %b, align 4 
%1 = load 132* %a, align 4 
%2 = load 132* %b, align 4 
%3 = mul nsw i32 %1, %2 
store i32 %3, 132* %c, align 4 
%4 = load 132* %c, align 4 


ret 132 %4 


3. 现在 使 用 opt 工 具 进 行 一 个 转换 ， 优 化 内 存 访 问 (将 局 部 变量 从 
内 存 提升 到 寄存 器 ) 


$ opt -mem2reg -S multiply.ll -o multiply1.11 

$ cat multiply1.1l 

; ModuleID = 'multiply.11' 

target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128" 


target triple - "x86 64-unknown-linux-gnu" 


; Function Attrs: nounwind uwtable 
define i32 @mult(i32 %a, 132 %b) #0 { 
%1 = mul nsw i32 %a, %b 


ret 132 %1 


工作 原理 


opt 是 LLVM 的 优化 和 分 析 工 具 ， 采 用 input.] 文 件 作为 输入 ， 并 且 
按照 passname 执 行 Pass。 在 执行 Pass 之 后 的 输出 存 于 output.]] 文 件 ， 其 
中 包含 转换 后 的 IR 代 码 。opt 工 具 可 以 使 用 多 个 Pass。 


更 多 内 容 


如 有 果 给 opt 工 具 传 入 -analyze 人 参数， 它 会 在 输入 源码 上 执行 不 同 的 


分 析 ， 并 且 在 标准 输出 流 或 错误 流 打 印 分 析 结 果 。 当 然 ， 输 出 也 能 
定 辣 到 男 一 个 程序 或 者 一 个 文件 。 


如 果 不 为 opt 工 具 传 入 -analyze 参 数 ， 它 会 对 输入 执行 转换 Pass， 以 


进行 化 化 % 


下 面 列 出 了 一 些 重要 的 转换 ， 可 作为 参数 传递 给 opt 工 具 : 


adce: 入 侵 式 无 用 代码 消除 。 
bb-vectorize: 基本 块 癌 量化 。 
constprop: 简单 常量 传播 。 

dce: 无 用 代码 消除 。 

deadargelim: 无 用 参数 消除 。 
globaldce: 无 用 全 局 变量 消除 。 
globalopt: 全 局 变量 优化 。 

gvn: 全 局 变量 编号 。 

inline: 函数 内 联 。 

instcombine: JUZRTR S Gf 。 

licm: 循环 常量 代码 外 提 。 
loop-unswitch: 循环 外 提 。 
loweratomic: 原子 内 建 画 数 lowering ° 
lowerinvoke: invode 指 令 lowering， 以 支持 不 稳定 的 代码 生成 器 。 
lowerswitch: switchł§ $ lowering ° 
mem2reg: 内 存 访问 优化 。 
memcpyopt: MemCpy 优 化 。 
simplifycfg: 简化 CFG。 

sink: 代码 提升 。 


。 tailcallelim: 尾 调 用 消除 ° 


弄 明 日 这 些 优 化 如 何 工 作 ， 你 最 好 至 少 运行 一 些 之 前 的 Pass。 
另外 ， 如 果 想 要 得 到 这 些 Pass 可 应 用 的 合适 的 源码 ， 你 可 以 到 
llvm/test/Transforms 目 录 。 对 于 以 上 的 每 一 个 Pass， 在 那里 都 可 以 看 到 
测试 代码 。 你 可 以 应 用 相关 Pass 并 查看 测试 代码 如 何 被 修改 。 


为 了 和 弄 明 日 C 语 言 代码 是 如 何 映 和 映 到 LLVM IR 的 ， 你 可 以 在 将 C 
代码 转换 为 I[R 之 后 〈 在 “将 C 源 码 转换 为 LLVM 汇 编码 ”一 节 提 到 ) ， 


运行 mem2reg Pass， 它 会 帮助 你 明白 C 指 令 是 如 何 映射 到 蕉 指令 
的 。 


REPEAT LVM bitcode 


本 六 介绍 如 何 把 之 前 生成 的 .bc 文件 变 成 一 个 单一 的 包含 了 所 有 所 
需 引 用 的 bitcode 文 件 。 


准备 工作 


你 需要 先 安装 llvm-link 工 具 ， 用 它 来 链接 .bc 文件 。 


详细 步骤 


HITA FEIR o 


1. 2g T Rézrllvm-linkR]Z]BE , HEA EE F ia EBUS, 
HBM: 


$ cat test1.c 


int func(int a) { 


a = a*2; 
return a; 


$ cat test2.c 
#include<stdio.h> 

extern int func(int a); 

int main() { 

int num = 5; 

num = func(num); 

printf ("number is %d\n", num); 
return num; 


} 


2. 使 用 以 下 命令 将 C 代 码 转换 成 位 流 文 件 格式 ， 先 转 成 .1 文件 ， 再 
将 .1 文件 转 成 .bc 文件 : 


$ clang -emit-llvm -S test1.c -o test1.11 
$ clang -emit-llvm -S test2.c -o test2.11 


$ llvm-as testi1.11 -o test1.bc 


$ llvm-as test2.11 -o test2.bc 


我 们 得 到 了 testl.bc 和 test2.bc， 而 test2.bc 引 用 了 testl.bc 文 件 中 的 


func 语 法 。 
3. 通过 如 下 方式 使 用 llvm-link 命 令 链 接 两 个 LLVM bitcode 文 件 : 


$ llvm-link test1.bc test2.bc -o output.bc 


我 们 给 llvm-link 工 具 提 供 了 多 个 bitcode 文 件 ， 并 链接 得 到 单个 
bitcode 输 出 文件 一 一 output.bc。 我 们 将 在 下 一 市 “执行 LLVM bitcode” 运 
行 这 个 bitcode 文 件 。 


工作 原理 


llvm-linkM 工 具 的 功能 和 传统 的 链接 疑 一致， 如 果 一 个 函数 或 者 
变量 在 一 个 文件 中 被 引用 ， 却 在 男 一 个 文件 中 定义 ， 那 么 链接 紫 就 会 
解析 这 个 文件 中 引用 的 符号 。 但 和 传统 的 链接 器 不 同 ，llvm-link 不 会 
链接 Object 文 件 生 成 一 个 二 进 制 文件 ， 它 只 链接 bitcode 文 件 。 


在 前 面 的 场景 中 我 们 链接 testl.bc 和 test2.bc 文 件 生成 output.bc 文 
件 ， 而 它 的 引用 已 经 被 解析 并 链接 了 。 


在 链接 bitcode 文 件 之 后 ， 我 们 可 以 传递 -S 参 数 给 llvm-link 工 具 


来 输出 IR 文 件 。 


执行 LLVM bitcode 


本 和 介绍 如 何 执行 之 前 得 到 的 LLVM bitcode 文 件 。 


准备 工作 


你 需要 先 安装 li 工具 ， 用 它 来 执行 LLVM bitcode ° 


详细 步骤 


在 前 一 万 中 我 们 看 到 在 链接 两 个 .bc 文件 之 后 会 得 到 单个 的 位 流 文 
件 ， 其 中 一 个 文件 引用 了 男 一 个 文件 定义 的 func 芳 数 。 而 调用 册 ji 命令 
可 以 执行 之 前 得 到 的 outpub.bc 文 件 ， 直 接 在 标准 输出 里 给 出 结 


| $ lli output.bc 


number is 10 


Hi 的 输入 是 output.bc 文 件 ， 它 会 执行 bitcode 文 件 ， 如 采 有 输出 会 在 
标准 输出 显示 结 采 。 在 这 个 样 例 中 输出 结果 是 “humber is 10”, XAW ze 
由 之 前 章节 中 的 testl.c 和 test2.c 链 接 得 到 的 output.bc 文 件 的 执行 结果 。 
test2.c 文 件 的 主 函 数 调用 了 testl.c 文 件 的 func 函 数 ， 并 用 整数 5 作为 参 
数 ， 而 func 函 数 把 输入 参数 乘 以 2 之 后 返回 给 主 函 数 ， 主 函数 则 癌 标 准 
输出 打印 结果 o 


工作 原理 


li 工具 命令 执行 LLVM bitcode 格 式 程序 ， 它 使 用 LLVM bitcode 格 
式 作 为 输入 并 且 使 用 即时 编译 器 (JIT) 执行 。 当 然 ， 如 果 当 前 的 架构 
不 存在 JIT 编 译 右 ， 会 用 解释 器 执行 。 


如 采 1Hi 能 够 采用 JIT 编 译 妖 ， 那 么 它 能 高 歼 地 使 用 所 有 代码 生成 器 
参数 ， 如 llc。 


TRA I 
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准备 工作 


Clang 


你 需要 先 安装 Clang 工 具 。 


详细 步骤 


Clang 可 以 用 作 高 层 编译 絮 驱 动 ， 让 我 们 来 看 一 个 样 例 。 
1. 创建 一 个 C 语 言 的 hello world， 文 件 名 是 test.c: 


$ cat test.c 
#include<stdio.h> 

int main() { 

printf ("hello world\n"); 


return 0; } 


2. EH Clang (EA A8 FE ae Io, Fares El ATTIC Fa.out, DUCTU 
可 得 到 预期 结 采 : 


$ clang test.c 
$ ./a.out 
hello world 


这 里 创建 了 C 语 言 文 件 test.c， 我 们 用 Clang 编 译 之 后 束 得 到 可 执行 
文件 ， 将 得 到 期 望 的 结 


3. 除 此 之 外 ，Clang 也 能 用 作 预 处 理 器 ， 只 需要 增加 -E 参 数 。 下 面 
的 样 例 中 ，C 语 言 代 码 中 用 #define 定 义 了 一 个 宏 MAX， 其 值 为 100， 用 
来 作为 即将 创建 的 数组 的 长 度 : 


$ cat test.c 
#define MAX 100 
void func() { 
int a[MAX]; 

} 


4. EA DAR ae Sia A Uh las, CE ET P ID GEAR: 


clang test.c -E 
1 "test.c" 


1 "<built-in>" 1 


$ 

# 

# 

# 1 "<built-in>" 3 

# 308 "<built-in>" 3 
# 1 "«command line>" 1 
# 1 "<built-in>" 2 
# 1 "test.c" 2 
void func() { 
int a[100]; 


} 


在 test.c 文 件 中 ， 本 书 之 后 的 内 容 中 也 将 使 用 该 文件 ， 定 义 了 MAX 
为 100， 因 此 MAX 在 预 处 理 中 被 奉 换 之 后 ，a[MAX] 就 变 成 了 a[100]。 


5. 你 能 用 下 面 的 命令 打印 前 面 样 例 中 test.c 文 件 的 抽象 语法 树 ， 在 
标准 输出 中 输出 结果 : 


| $ clang -cc1 test.c -ast-dump 

TranslationUnitDecl 0x3f72c50<<invalid sloc>><invalid sloc> 
|-TypedefDecl 0x3f73148<<invalid sloc>><invalid sloc> implicit 
. int128 t ' int128' 

| - TypedefDecl 0x3f731a8<<invalid sloc>><invalid sloc» implicit 
. Uuinti128 t 'unsigned _ int128' 

| - TypedefDecl 0x3f73518<<invalid sloc>><invalid sloc» implicit 


. builtin va list ' va list tag [1]' 


~-FunctionDecl 0x3f735b8«test.c:3:1, line:5:1> line:3:6 func 
‘void ()' 
~-CompoundStmt Ox3f73790<col:13, line:5:1> 
“-DeclStmt Ox3f73778<line:4:1, col:11> 


^-VarDecl 0x3f73718«col:1, col:10> col:5 a 'int [100]' 


XC EAJ- ARRUE T Hae fr Hes Bl. TU A Jd Ear IEN, 
它 输 出 了 test.c 文 件 代码 的 AST ° 


6. 你 也 可 以 用 下 面 的 命令 来 为 前 面 样 例 中 的 test.c 文 件 生成 LLVM 
汇编 码 : 


I$ clang test.c -S -emit-llvm -o - 

|; ModuleID - 'test.c' 

|target datalayout = "e-m:e-i164:64-f80:128-n8:16:32:64-S128" 
|target triple = "x86 64-unknown-linux-gnu" 

| 

|; Function Attrs: nounwind uwtable 

[define void Qfunc() #0 { 

|%a = alloca [100 x i32], align 16 


|ret void 


» 


-S 参 数 和 -emit-llvm 参 数 保证 为 testc 代 码 生 成 LLVM 谍 编码 。 


7. 为 了 得 到 用 于 相同 test.c 测 试 码 的 机 器 码 ， 需 要 给 Clang 传 递 -S 参 
数 。 如 果 你 使 用 了 -o -参数 ， 则 会 在 标准 输出 中 输出 结果 : 


I$ clang -S test.c -o - 
| .text 

| .file "test.c" 

| .globl func 

| .align 16, 0x90 

| .type func,@function 
| func: & @func 
| .cfi startproc 

|# BB#0: 


| pushq %rbp 


.Ltmpo: 
.cfi_def_cfa_offset 16 
.Ltmpi: 
.cfi offset %rbp, -16 


movq %rsp, %rbp 


| 

| 

| 

| 

| 

| .Ltmp2: 
| .cfi def cfa register %rbp 
| popq rbp 

| retq 

| .Ltmp3: 

| .size func, .Ltmp3-func 
| 


.cfi endproc 


TE HL Rd -SERCR TEL P. ES ee te CIS AE DUI ER RT SIL 
RR » AEH To, KMT io e Jo Les E h P TR 
准 输出 。 


工作 原理 


在 之 前 的 样 例 中 ，Clang 能 够 作为 预 处 理 右 、 编 译 郁 张 动 、 前 端 以 
及 代码 生成 器 使 用 ， 因 此 它 的 输出 取决 于 你 指定 的 参数 。 


TRA I 


e 这 里 简单 介绍 了 如 何 使 用 Clang， 而 还 有 很 多 参数 可 以 传递 给 
Clang， 对 应 了 不 同 的 功能 。 如 采 想 要 看 到 它 的 所 有 参数 ， 可 以 执 
行 clang 的 一 help 命 令 。 


使 用 GO 语言 前 端 


llgo 编 译 器 是 基于 LLVM 的 仅 用 Go 语言 写 的 Go 语言 前 端 ， 用 它 可 
以 把 Go 语言 程序 编译 成 LLVM 汇编 码 。 


准备 工作 


你 需要 下 载 llgo 二 进 制 文件 或 者 通过 源码 来 构建 lgo， 并 且 把 它 的 
路 径 添加 到 PATH 环境 变量 中 。 


详细 步骤 


执行 以 下 步骤 。 


1. 创建 Go 源码 文件 ， 如 通过 llgo 生 成 LLVM 汇 编码 。 创 建 test.go: 


|$ cat test.go 
|package main 
|import "fmt" 
[func main() { 


| fmt.Println("Test Message") 


2. 然后 用 llgo 获 得 LLVM 汇 编码 : 


$11go -dump test.go 
; ModuleID = 'main' 
target datalayout - "e-p:64:64:64..." 
target triple - "x86 64-unknown-linux" 


%0 = type { i8*, i8* ) 


工作 原理 


llgo 编 译 老 是 Go 语言 的 前 端 ， 它 用 testgo 程 序 作 为 输入 ， 输 出 
LLVM IR ° 


PRAAN 
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使 用 DragonEgg 


DragonEgg 是 一 个 GCC 插件 ， 它 使 得 GCC 能 够 使 用 LLVM 优 化 器 和 
代码 生成 器 来 取代 GCC 自己 的 优化 器 和 代码 生成 器 。 


准备 工作 


你 需要 GCC 4.5, & EMA, Hidan 7Jx86-32/x86-64 L4 K ARM 
OEE as o AIN, WE PE DragonEgg ii +h) dragonegg.soz/) s HE 
接 库 文件 © 


详细 步骤 


执行 以 下 步骤。 
1. 创建 一 个 简单 的 hello world 程 序 : 


$ cat testprog.c 
#include<stdio.h> 

int main() { 
printf("hello world"); 
} 


2. 用 GCC 来 编译 这 个 程序 ， 这 里 使 用 的 是 gcc-4.5: 


$ gcc testprog.c -S -01 -o - 
.file" testprog.c" 
.section.rodata.stri.1,"aMS",@progbits,1 
.LC0: 
.string"Hello world!" 
.text 
.globl main 
.type main, Qfunction 
main: 
subq $8, %rsp 
movl $.LCO, %edi 
call puts 
movl $0, %eax 
addq $8, %rsp 
ret 


‚size main, .-main 


3. 在 gcc 命 令 行 中 使 用 -fplugin=path/dragonegg.so 参 数 ， 来 让 GCC 
调用 LLVM 的 优化 右 和 代码 生成 大; 


$ gcc testprog.c -S -01 -0 - -fplugin-./dragonegg.so 
.file " testprog.c" 

# Start of file scope inline assembly 
.ident "GCC: (GNU) 4.5.0 20090928 (experimental) LLVM: 


82450:82981" 


# End of file scope inline assembly 


.text 

.align 16 

.globl main 

„type main, @function 
main: 

subq $8, %rsp 

movl $.L.str, %edi 

call puts 

xorl %eax, %eax 

addq $8, %rsp 

ret 

‚size main, .-main 

.type .L.str,@object 

.section 

.Frodata.str1.1,"aMS",Qprogbits,1 
.L.str: 

.asciz "Hello world!" 

.size .L.str, 13 


„section .note.GNU-stack,"",@progbits 


X 于 DragonEgg W 75 FRR ER, d $ W 
http://dragonegg.llvm.org/ ° 
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一 一 每 个 变量 仅 被 赋值 一 次 。 一 一 译 者 注 


[2] sysroot: 通常 指 的 是 系统 的 根 目 录 ， 例 如 Linux 系 统 的 根 目 录 


为 /。 有 时 我 们 可 以 通过 修改 sysroot 来 改变 程序 的 安装 路 径 。 一 -一 译 者 


it 
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定义 TOY 语 言 

实现 词法 分 析 器 

定义 抽象 语法 树 

实现 语法 分 析 器 

解析 简单 表达 式 
解析 二 元 表达 式 

为 解析 编写 驱动 

对 TOY 语 言 进行 词法 分 析 和 语法 分 析 
为 每 个 AST 类 定义 IR 代 码 生 成 方法 
为 表达 式 生 成 IR 代 码 

为 函数 生成 IR 代 码 
增加 IR 优 化 支持 


概述 


本 章 将 展示 如 何 为 一 门 语言 写 一 个 编译 恬 前 端 。 我 们 使 用 目 定 义 
的 语言 TOY， 为 其 编写 词法 分 析 器 和 语法 分 析 絮 ， 以 及 使 用 前 端 从 
AST (Abstract Syntax Tree) “ESWIR{CES » 


定义 TOY 语 言 


在 实现 词法 分 析 郁 和 语法 分 析 郝 之 前 ， 我 们 首先 需要 定义 这 门 语 
塞 的 语法 。 本 划 将 通过 TOY 语 言 来 展示 如 何 实现 词法 分 析 占 和 语法 分 
析 句 。 本 市 的 目的 古 展 示 一 门 语言 的 基本 特性 。 出 于 这 个 目的 ，TOY 
语言 比较 简单 但 具有 一 定 意义 。 


通常 来 说 ， 一 门 编程 语言 会 有 一 些 变 量 、 函 数 调用 、 常 量 等 。 为 
了 让 事情 简单 一 点 ， 我 们 考虑 实现 的 TOY 语 言 只 包含 32 位 的 整 型 常量 
类 型 A， 以 及 不 需要 声明 类 型 的 变量 ( 像 Python 一 样 ， 与 C/C++/Java 这 
样 需 要 类 型 声明 的 静态 语言 相反 ) 。 


详细 步骤 


语法 通过 如 下 的 推导 规则 来 定义 : 非 终结 符号 U (nonterminal- 
symbol) 在 左边 (Left Hand Side LHS) ， 终 结 符号 (terminal- 
symbol) 和 非 终结 符 的 组 合 在 右边 (Right Hand Side——RHS) ; “4 
遇 到 一 个 LHS， 束 会 根据 推导 规则 生成 与 之 对 应 的 RHS。 


1. 一 个 算术 表达 式 可 以 是 一 个 数字 常量 : 


numeric expr := number 


2. 括号 表达 式 会 在 左右 括号 之 间 包 含 一 个 表达 式 : 


paran expr := '(' expression ')' 


3. 一 个 标识 符 (identifier) 表达 式 会 是 一 个 标识 符 或 者 函数 调 
用 : 


identifier expr 
:= identifier 


:= identifier '('expr list ')' 


4. 如 有 果 标 识 符 _expr 征 函数 调用 ， 它 要 么 没有 人 参数， 要么 有 一 个 由 
逗号 分 隔 的 参数 列表 : 


expr list 
:= (empty) 


:= expression (', 


expression)* 


5. 男 外 还 有 一 些 基 本 表达 式 ， 它 们 可 以 是 标识 符 表达 式 、 算 术 表 
达 式 ， 或 者 括号 表达 式 ， 语 法 会 从 基本 表达 式 开始 展开 。 


primary := identifier_expr 
:=numeric expr 


:zparan expr 


6. 一 个 表达 式 可 以 是 一 个 二 元 表达 式 : 


expression := primary binoprhs 


7. 一 个 RHS 二 元 运算 则 是 二 元 运算 符 和 表达 式 的 组 合 : 


binoprhs := ( binoperator primary )* 


binoperators := '+'/'-'/'*'/'/' 


8. KEA A FRIES: 


func decl :- identifier '(' identifier list ')' 
identifier list :- (empty) 


:= (identifier)* 


9. RUE X, f Fl def KEF, Aa ene BANE XC T BRA Ze 
TA 


function defn :- 'def' func decl expression 

10. 最 后 ， 需 要 一 个 顶层 的 表达 式 ， 以 生成 所 有 种 类 的 表达 式 : 
toplevel expr := expression 

基于 以 上 定义 的 语法 ，TOY 语 言 可 以 写 出 这 样 一 个 样 例 : 


def foo (x , y) 
x +y * 16 


既然 我 们 已 经 定义 了 语法 ， 那 么 接 下 来 就 是 为 其 写 一 个 词法 分 析 
器 和 语法 分 析 器 


LHE DT Ae 


词法 分 析 往 往 是 编译 程序 的 第 一 步 。 词 法 分 析 希 把 程序 代码 的 输 
入 流 切 分 成 token， 而 语法 分 析 器 则 接受 这 些 token 并 把 token 流 构建 成 
AST (抽象 语法 树 ) 。 通 常 来 说 ， 被 解析 成 token 的 语言 是 基于 上 下 文 
无 关 语法 司 的 。 一 个 token 可 以 是 一 个 字符 串 ， 由 一 个 或 多 个 同一 范畴 


的 字符 组 成 。 对 输入 字符 流 构 建成 token 的 过 程 称 为 符号 化 

(tokenization) 。 为 了 把 输入 的 字符 分 组 成 token， 还 需要 有 特定 的 定 
界 符 。 对 于 词法 分 析 来 说 ， 有 目 动 化 的 词法 分 析 工 具 来 完成 这 个 工 
作 ， 比 如 LEX。 而 我 们 接 下 来 展示 的 TOY 词 法 分 析 器 ， 则 是 采用 
C++ 语言 来 手动 实现 的 。 


准备 工作 


我 们 必须 对 本 和 定义 的 TOY 语 言 有 一 个 基本 的 了 解 。 首 先 创 建 一 
个 toy.cpp 文 件 : 


$ vim toy.cpp 


接 下 来 的 代码 涵盖 了 词法 分 析 、 语 法 分 析 、 代 码 生 成 的 逻辑 。 


详细 步骤 


实现 词法 分 析 器 的 时 候 ， 需 要 确定 token 的 类 型 来 对 输入 字符 串 流 
进行 分 类 (与 自动 机 中 的 状态 相似 ) ， 而 这 些 类 型 可 以 用 enumeration 
(enum) 来 表示 。 


1. 4J F toy.cpp X4 HH : 


$ vim toy.cpp 


2. 在 toy.cpp 文 件 中 编写 enum: 


enum Token Type { 
EOF TOKEN = 0, 
NUMERIC TOKEN, 
IDENTIFIER TOKEN, 
PARAN_TOKEN, 
DEF_TOKEN 


}; 
下 面 是 以 上 代码 的 术语 表 : 


。EOF_TOKEN: 它 规定 文件 的 结束 。 

e NUMERIC TOKEN: 当前 token 是 数值 类 型 的 。 

e IDENTIFIER TOKEN: 当前 token 是 标识 符 。 

e PARAN TOKEN: 当前 token 是 括号 。 

。 DEF TOKEN: 当前 token 是 def 声 明 ， 之 后 是 函数 定义 。 


3. 为 了 持 有 数值 ， 需 要 在 toy.cpp 文 件 中 定义 一 个 静态 变量 : 


static int Numeric Val; 


4. 为 了 持 有 Identifier 字 符 串 名 字 ， 还 需要 在 toycpp 文 件 中 定义 一 


ES E. 
个 静态 变量 : 


static std::string Identifier string; 


5. 现在 通过 在 toycpp 文 件 中 使 用 一 些 诸如 isspace0 ^ isalpha() 4 
fgetc0 之 类 的 C 语 言 库 函数 定义 词法 分 析 函 数 ， 如 下 : 


static int get token() { 


static int LastChar = ' '; 


while(isspace(LastChar)) 


LastChar - fgetc(file); 


if(isalpha(LastChar)) ( 
Identifier string - LastChar; 
while(isalnum((LastChar - fgetc(file)))) 


Identifier string += LastChar; 


if(Identifier string == "def") 
return DEF TOKEN; 


return IDENTIFIER TOKEN; 


if(isdigit(LastChar)) { 
std::string NumStr; 
do { 
NumStr += LastChar; 
LastChar = fgetc(file); 


} while(isdigit(LastChar)); 


Nu meric_Val = strtod(NumStr.c_str(), 0); 


return NUMERIC TOKEN; 


if(LastChar == '#') { 
do LastChar - fgetc(file); 


while(LastChar != EOF && LastChar !- '\n' 


&& LastChar != 'Nr'); 


if(LastChar != EOF) return get token(); 


if(LastChar -- EOF) return EOF TOKEN; 


int ThisChar - LastChar; 
LastChar - fgetc(file); 


return ThisChar; 


工作 原理 


之 前 定义 的 TOY 语 言 样 例如 下 : 


def foo (x , y) 


x+y * 16 


词法 分 析 器 会 以 这 个 程序 为 输入 。 在 遇 到 def 关 键 字 之 后 ， 判 断 出 
接 下 来 会 是 函数 定义 的 token， 因 此 返回 枚 举 值 DEF_ TOKEN“。 然 后 会 
遇 到 函数 定义 以 及 参数 。 接 着 是 一 个 有 两 个 二 元 操作 符 、 两 个 变量 、 
一 个 数值 常量 组 成 的 表达 式 。 在 下 一 节 会 展示 采用 何 种 数据 结构 来 保 
存 这 些 数据 。 


PRAAN 


«T RH AR ` FRECHEN, TAS Clana 
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定义 抽象 语法 树 


抽象 语法 树 (以 下 简称 为 AST) 是 一 门 编程 语言 源码 的 抽象 语法 
结构 的 树 形 表示 。 各 种 语言 组 件 ， 例 如 表达 式 、 条 件 控制 语句 等 ， 都 
有 相应 的 AST， 并 被 区 分 为 操作 人 符 和 操作 数 。AST 并 不 表示 这 些 代 码 
如 何 由 语法 生成 ， 而 是 表达 了 语言 组 件 之 间 的 关系 。AST 名 上 略 了 一 些 
无 关 紧要 的 元 素 ， 例 如 标点 符号 、 定 界 符 〈 通 常 是 空格 、 换 行 ) oe A 
外 ，AST 中 的 每 个 元 素 都 会 有 一 些 附 加 的 属性 ， 在 之 后 的 编译 阶段 会 
有 一 定 人 作用。 例如， 源码 行 号 信息 束 是 这 样 一 个 属性 ， 在 进行 语法 检 
查 遇 到 语法 错误 时 残 可 以 输出 错误 代码 的 行 号 信息 (在 C++ 的 Clang 前 
端 中 ， 位 置 、 行 号 、 列 号 等 信息 以 及 其 他 相关 属性 由 SourceManager 类 
的 一 个 对 象 存 储 ) 。 


AST 的 使 用 集中 在 语义 分 析 阶 段 ， 在 这 个 阶段 ， 编 译 右 会 检查 程 
序 和 语言 元 素 是 否 正 确 使 用 。 此 外 ， 在 语义 分 析 阶 段 编 译 器 还 会 基于 
AST 生 成 符号 表 。 完 整 的 树 遍历 允许 验证 程序 的 正确 性 。 在 验证 正确 
后 ，AST 还 是 代码 生成 的 基础 。 


准备 工作 


在 生成 AST 之 时 ， 我 们 需要 运行 词法 分 析 器 来 得 到 token。 我 们 即 
将 要 解析 的 语言 由 表达 aN AGE X. ^ KUE RAZER, MIATA 
多 种 类 型 ， 包 括 变量 、 二 元 运算 符 、 数 值 表达 式 等 。 


详细 步骤 


为 了 定义 AST 结 构 ， 执 行 以 下 步骤 。 
1. 打开 toy.cpp 文 件 : 

$ vim toy.cpp 
以 下 是 词法 分 析 器 代码 ， 定 义 了 AST。 
2. 首先 定义 一 个 base 类 解析 表达 式 : 


class BaseAST ( 
public : 
virtual -BaseAST(); 


还 需要 定义 几 个 派生 类 来 解析 每 一 种 类 型 的 表达 式 。 


N 


3. 变量 表达 式 的 AST 类 定义 如 下 : 


class VariableAST : public BaseAST( 
std::string Var Name; 

// 定义 string 对 象 用 作 存 储 变量 名 
public: 


:string &name) : Var Name(name) {} 


VariableAST (std:: 
// 变 量 AST 类 的 售 参 构造 函数 由 传 入 构造 函数 的 字符 串 初 始 化 


】 
包含 一 些 数值 表达 式 。 数 值 表 达 式 的 AST 类 定义 如 下 : 


Ae = 


class NumericAST : public BaseAST { 


int numeric_val; 
public : 


NumericAST (intval) 


HH 


:numeric val(val) {} 


5. 对 于 由 二 元 运算 组 成 的 表达 了 式 ，AST 类 定义 如 下 : 


Class BinaryAST : public BaseAST { 
std::string Bin Operator; // 用 于 存储 二 元 运算 符 的 String 对象 
*RHS; // 用 于 存储 一 个 二 元 表达 式 的 LHS 和 RHS 的 对 象 。 
因此 用 BaseAST 对 象 存储 。 


BaseAST *LHS, 
// 由 于 LHS 和 RHS 二 元 操作 可 以 是 任何 类 型 ， 
public: 

BinaryAST (std::string op, 
LHS(lhs), RHS(rhs) {3 


达 式 的 LHS 和 RHS 


BaseAST *lhs, BaseAST *rhs ) 


Bin Operator(op), 


// 初始 化 二 元 运算 符 、 二 元 表 1 
H 
6. 用 于 函数 声明 的 AST 类 定义 如 下 : 


class FunctionDeclAST { 


std::string Func Name; 


std::vector<std::string> Arguments; 


public: 

FunctionDeclAST(const std::string &name, const 
std::vector«std::string» &args) 

Func Name(name), Arguments(args) {}; 


7. 用 于 函数 定义 的 AST 类 定义 如 下 : 


class FunctionDefnAST ( 
FunctionDeclAST *Func Decl; 
BaseAST* Body; 
public: 
FunctionDefnAST(FunctionDeclAST *proto, BaseAST *body) 


Func Decl(proto), Body(body) {} 
E 


8. 用 于 函数 调用 的 AST 类 定义 如 下 : 


class FunctionCallAST : public BaseAST { 

std::string Function Callee; 

std::vector«BaseAST*» Function Arguments; 

public: 

FunctionCallAST(const std::string &callee, 

std::vector«BaseAST*» 
&args): 

Function Callee(callee), Function Arguments(args) {} 


}; 


到 这 里 ，AST 的 基本 框架 已 经 基本 可 用 o 


工作 原理 


天 于 由 词法 分 析 絮 得 到 的 token 的 各 种 信息 由 AST 这 一 数据 结构 来 
存储 ， 这 些 信息 包含 在 语法 分 析 锅 的 逻辑 当中 ， 并 且 根 据 当 前 解析 的 
token 类 型 来 填充 AST。 


PRAAN 


。 TERAST, Telle XIAN, EEZ jn BASE 
调用 语法 分 析 器 和 词法 分 析 器 的 样 例 。 关 于 Clang 使 用 的 C++ AST 
结 构 的 x A 信 MW ， 请 参 见 
http://clang.llvm.org/docs/IntroductionToTheClangAST.html ° 


LINEIDAE 


eat (parser) 根据 语言 的 语法 规则 来 解析 代码 ， 解 析 阶 段 
决定 了 输入 的 代码 是 否 能 够 根据 既定 的 语法 组 成 token 流 站。 在 此 阶段 
会 构造 出 一 棵 解析 树 ， 而 语法 分 析 需 则 会 定义 一 些 函 数 来 把 代码 组 织 
成 一 种 被 称 为 AST 的 数据 结构 。 本 节 定 义 的 解析 器 采用 了 递归 下 降 的 
解析 技术 目 项 癌 下 解析 ， 并 用 相互 递归 的 函数 构建 AST 。 


准备 工作 


RMNBEAAEMNIES, AGIA ETOVIER, UR AIEA A 
得 到 的 token 流 。 


详细 步骤 


在 TOY 的 语法 分 析 器 中 定义 一 些 基本 的 变量 来 持 有 上 下 文 信息 : 
1. 打开 toy.cpp 文 件 : 


$ vim toy.cpp 


2. 定义 持 有 当前 token (来 自 词 法 分 析 器 ) 的 静态 全 局 变量 
static int Current token; 
3. 4E XL— TP BBE A43 A HIA FIRE P— token, Al P: 


static void next token() ( 


Current token - get token(); 


4. 下 一 步 需要 使 用 前 一 节 定义 的 AST 数 据 结构 ， 为 解析 表达 式 定 
义 画 数 。 


5. 定义 一 个 沁 型 函数 ， 来 根据 由 词法 分 析 絮 确定 的 token 类 型 调用 
特定 解析 函数 ， 如 下 : 


static BaseAST* Base Parser() ( 


switch (Current token) { 


default: return 0; 
case IDENTIFIER TOKEN : return identifier parser(); 
case NUMERIC TOKEN : return numeric parser(); 


case '(' : return paran parser(); 


工作 原理 


输入 流 被 词法 分 析 需 构建 成 token 流 并 传递 给 语法 分 析 器 。 
Current token 持 有 当前 处 理 的 token。 在 这 一 阶段 token 的 类 型 是 已 知 
的 ， 并 根据 其 类 型 来 调用 相应 的 解析 函数 来 初始 化 AST。 


FDD 


。 在 下 面 儿 和 节 中 ， 我 们 会 学 习 如 何 解析 不 同 的 表达 式 。 关 于 Clang 使 
Hj By C++ 5E gm oix M By YE HH D Wo, AAN 
http://clang.llvm.org/doxygen/classclang 1 1Parser.html ° 


解析 简单 的 表达 式 


本 世 介 绍 如 何 解析 简单 的 表达 式 。 一 个 简单 的 表达 式 由 数值 、 标 
识 特 、 术 数 调用 、 函 数 声 明和 函数 定义 组 成 。 对 于 每 一 种 类 型 的 表达 
式 ， 和 需要 定义 独立 的 解析 逻辑 。 


准备 工作 


我 们 需要 上 自 定义 的 语言 (本 例 中 是 TOY 语 言 ) WAR MAE a a 
生成 的 token 流 。 在 此 之 前 我 们 已 经 定义 了 AST， 所 以 在 这 里 只 要 解析 
表达 式 并 且 为 每 种 类 型 的 表达 式 调用 相应 的 AST 构 造 画 数 即 可 。 


详细 步骤 


执行 以 下 的 代码 来 解析 简单 的 表达 式 。 
1. 打开 toy.cpp 文 件 : 


$ vi toy.cpp 


在 toy.cpp 文 件 中 已 经 完成 了 词法 分 析 的 逻辑 ， 其 他 的 代码 需要 写 
在 词法 分 析 后 面 。 


2. 定义 如 下 的 parser 函 数 来 解析 数值 表达 式 : 


static BaseAST *numeric parser() ( 
BaseAST *Result - new NumericAST(Numeric Val); 
next token(); 


return Result; 


3. 定义 parser 函 数 来 解析 标识 符 表 达 式 。 需 要 注意 的 是 ， 标 识 符 可 
以 是 变量 引用 ,或 者 臣 函数 调用 。 它 们 之 间 通 过 函数 调用 会 由 括号 这 
一 特征 来 区 分 。 实 现 如 下 : 


static BaseAST* identifier parser() ( 


std::string IdName - Identifier string; 


next token(); 


if(Current token !- '(') 


return new VariableAST(IdName); 


next token(); 


std::vector«BaseAST*» Args; 
if(Current token !- ')') ( 
while(1) { 
BaseAST* Arg - expression parser(); 
if(!Arg) return 0; 


Args.push back(Arg); 


if(Current token == ')') break; 
if(Current token !- ',') 
return 0; 


next token(); 


J 


next token(); 


return new FunctionCallAST(IdName, Args); 


4. 定义 如 下 的 parser 函 数 来 解析 函数 声明 : 


static FunctionDeclAST *func decl parser() { 
if(Current token !- IDENTIFIER TOKEN) 


return 0; 


std::string FnName - Identifier string; 


next token(); 


if(Current token !- '(') 


return 0; 

std::vector<std::string> Function Argument Names; 
while(next token() == IDENTIFIER TOKEN) 

Function Argument Names.push back(Identifier string); 
if(Current token !- ')') 

return 0; 


next token(); 


return new FunctionDeclAST(FnName, Function Argument Names); 


5. XE X AI] P JparserER BURA IT ES BUT X : 


static FunctionDefnAST *func defn parser() (1 
next token(); 
FunctionDeclAST *Decl - func decl parser(); 


if(Decl -- 0) return 0; 


if(BaseAST* Body - expression parser()) 
return new FunctionDefnAST(Decl, Body); 


return 0; 


需要 注 


意 ， 这 个 函数 调用 了 前 面 代码 中 的 expression_parser 来 解析 
表达 式 ， 其 函数 定 


XP: 


static BaseAST* expression parser() { 
BaseAST *LHS - Base Parser(); 
if(!LHS) return 0; 


return binary op parser(0, LHS); 


工作 原理 


如 果 过 到 一 个 数值 token， 那 么 调用 数值 表达 式 的 构造 函数 并 由 解 
析 器 返回 数值 的 AST 对 象 ， 用 数值 数据 填充 数值 AST ° 


而 标识 符 表 达 式 也 与 此 类 似 ， 解 析 的 数据 可 以 是 变量 或 者 函数 调 
用 。 对 于 函数 声明 和 定义 来 说 ， 函 数 名 和 函数 参数 被 分 别 解 析 ， 接 着 
HHHH ASTRA KR ° 


解析 二 元 表达 式 
本 节 介绍 如 何 解析 二 元 表达 式 。 


准备 工作 


我 们 需要 上 自 定义 的 语言 《本 例 中 是 TOY 语 言 ) ， 以 及 由 词法 分 析 
右 生 成 token 流 。 二 元 表达 式 的 解析 器 在 按 顺 序 决 定 LHS 和 RHS 的 时 候 
需要 知道 二 元 运算 符 的 优先 级 ， 而 这 可 以 用 STL 中 的 map 来 表示 。 


详细 步骤 


执行 以 下 步骤 以 解析 二 元 表达 式 。 


1. 打开 toy.cpp 文 件 : 


$ vi toy.cpp 


2. 在 toycpp 文 件 的 全 局 作用 域内 声明 一 个 map 来 存储 运算 符 优先 
级 : 


static std::map<char, int>Operator_Precedence; 


这 里 展示 的 TOY 语 言 有 4 个 运算 符 ， 并 具有 以 下 的 优先 级 : 


-< +< /« * 


3. yrs B— Pe CCR a, BUF Lt RUE NE E map 
中 ， 也 定义 在 toycpp 的 全 局 作用 域内 : 


static void init precedence() { 
Operator Precedence['-'] = 1; 
Operator Precedencel['+'] = 2 
Operator Precedence['/'] = 3; 
4 


Operator Precedence['*'] = 


4. DERDE, DORIA XR TEEN, FEL HI 
F: 


static int getBinOpPrecedence() { 
if(!isascii(Current token)) 


return -1; 


int TokPrec - Operator Precedence[Current token]; 
if(TokPrec<= 0) return -1; 


return TokPrec; 


5. 现在 ， 可 以 定义 解析 binary 运 算 符 的 解析 器 了 : 


static BaseAST* binary op parser(int Old Prec, BaseAST *LHS) ( 
while(1) { 
int Operator Prec - getBinOpPrecedence(); 


if(Operator Prec« Old Prec) 


return LHS; 


int BinOp - Current token; 


next token(); 


BaseAST* RHS - Base Parser(); 


if(!RHS) return 0; 


int Next Prec - getBinOpPrecedence(); 
if(Operator Prec« Next Prec) ( 

RHS = binary op parser(Operator Prec+1, RHS); 
if(RHS == 0) return 0; 

} 


LHS = new BinaryAST(std::to string(BinOp), LHS, RHS); 


在 这 里 ， 当 前 运算 符 的 优先 级 和 之 前 运算 符 的 优先 级 一 起 被 检 
查 ， 输 出 则 取决 于 二 元 运算 符 的 LHS 和 RHS。 需 要 注意 的 是 ， 二 元 运 
算 符 解 析 器 是 递归 调用 的 ， 因 为 RHS 可 以 是 一 个 表达 式 ， 而 不 只 是 一 
个 单独 的 标识 符 。 


6. 括号 的 parser 函 数 定 义 如 下 : 


static BaseAST* paran parser() { 
next token(); 


BaseAST* V - expression parser(); 


if (!V) return 0; 


if(Current token != ')') 
return 0; 


return V; 


7. EX SERRE ex parser EN, FESCUE: 


static void HandleDefn() { 
if (FunctionDefnAST *F - func defn parser()) { 
if(Function* LF = F->Codegen()) { 
} 
} 


else ( 


next token(); 


static void HandleTopExpression() { 
if(FunctionDefnAST *F - top level parser()) { 
if(Function *LF = F->Codegen()) { 
} 
} 


else ( 


next token(); 


。 AEK NRMIJLT ae KF BE SOT RANTI] © RF C++ RIAL 
fe p 的 Fe d 内 7 , 请 2 见 
http://clang.llvm.org/doxygen/classclang 1 _1Parser.html。 


为 解析 编写 驱动 


本 市 介绍 如 何在 TOY 解 析 避 的 主 玉 数 中 调用 解析 函数 ， 即 为 解析 
函数 编写 张 动 。 


详细 步骤 


为 了 调用 驳 动 程序 以 开始 解析， 需要 定义 如 下 的 张 动画 数 。 


1. 打开 toy.cpp 文 件 : 
$ vi toy.cpp 
2. Driver 芳 数 由 主 函 数 调用 ， 解 析 絮 定义 如 下 : 


static void Driver() { 


while(1) { 


switch(Current token) ( 

case EOF TOKEN : return; 

case ';' : next token(); break; 

case DEF TOKEN : HandleDefn(); break; 


default : HandleTopExpression(); break; 


3.3511 E EY main HACE LUN TF: 


int main(int argc, char* argv[]) { 
LLVMContext &Context - getGlobalContext(); 
init precedence(); 
file - fopen(argv[1], "r"); 
if(file -- 0) ( 
printf("Could not open file\n"); 
} 
next token(); 
Module Ob - new Module("my compiler", Context); 
Driver(); 
Module Ob-»dump(); 


return 0; 


工作 原理 


ERA pi A RH A ra MEE ND WIS. A AEM FA ZR 
eae BMA TRIS Be ^ EER, GVS, HAAT HAS 


«XT Clang P RESTC---18 SNEAK EK ZAR YEA PIE, WS 
见 http:// Ilvm.org/viewvc/llvm- 


project/cfe/trunk/tools/driver/cc1_main.cpp ° 


"lit elena aaa 


BLA BEN TOY YR a ee ET SE RATA DA oF ae FOB IS 23 T 
az, PAT Dea HTOYi Sier ° 


准备 工作 


你 需要 对 TOY 语 言 的 语法 有 所 了 解 ， 以 及 本 章 前 几 和 的 预备 知 


识 。 


详细 步骤 


执行 以 下 的 步 又 用 TOY 语 言 来 运行 并 测 话 词 法 分 析 器 和 语法 分 析 


1. 首先 编译 toy.cpp 程 序 ， 得 到 可 执行 文件 : 


$ clang++ toy.cpp -03 -o toy 


2. 得 到 的 toy 可 执行 文件 即 是 TOY 编 译 器 的 前 端 ， 准 备 解 析 的 toy 
语言 文件 是 example 文 件 : 


$ cat example 
def foo(x , y) 


X y * 16 


3. KEUREN GUR IE toy FE n HR: 


$ ./toy example 


工作 原理 


TOY 编 译 絮 会 以 读 模 式 打 开 example 文 件 ， 并 且 将 单词 组 织 成 
token út ° W RB FI def X HE F BU ak [B] DEE TOKEN ， 然 后 调用 
HandleDefnQ Kal, E SAFE ELAND o MA AER VARI Æ token 
的 类 型 ， 然 后 调用 特定 的 token 处 理 函 数 ， 把 信息 存储 在 各 自 的 AST 
中 o 


PRAN 


e 上 述 的 词法 分 析 器 和 语法 分 析 圳 仅仅 处 理 了 少量 无 天 紧要 的 语法 
错误 。 为 了 实现 错误 处 理 ， 请 参见 
http://llvm.org/docs/tutorial/LangImpl2.html£parser-basics ° 


为 每 个 AST 类 定义 IR 代 码 生 成 方法 
现在 所 有 必要 信息 都 存储 于 AST 这 一 数据 结构 中 ， 下 一 阶段 即 是 


从 AST 生 成 LLVM IR。 在 代码 生成 的 过 程 中 我 们 需要 使 用 LLVM 的 
API， 通 过 LLVM 内 建 的 API 可 以 生成 预定 义 格 式 的 LLVM IR ° 


准备 工作 


你 需要 为 输入 的 任意 TOY 语 言 代 码 创建 AST © 


详细 步骤 


为 了 生成 LLVM IR， 我 们 需要 在 每 个 AST 类 定义 一 个 CodeGen 虚 
函数 《AST 类 在 前 面 的 AST 相 关 章 节 已 经 定义 过 ， 这 些 函 数 需 要 另外 
添加 到 这 些 类 中 ) ， 实 现 如 下 : 


1. 打开 toy.cpp 文 件 : 


$ vi toy.cpp 


2. 在 之 前 定义 的 BaseAST 类 ， 以 及 它 的 子 类 中 添加 Codegen() 函 
数 : 


class BaseAST ( 


virtual Value* Codegen() = 0; 
}; 
class NumericAST : public BaseAST { 


virtual Value* Codegen(); 
}; 
class VariableAST : public BaseAST { 


virtual Value* Codegen(); 


}; 
我 们 定义 的 每 一 个 AST 类 都 需要 包含 Codegen() 函 数 。 


这 一 函数 返回 值 是 LLYM Value 对 象 ， 它 表示 了 静态 单 赋值 
(SSA) 对 象 。 在 Codegen 过 程 中 还 需要 定义 几 个 静态 对 象 。 


3. 在 全 局 作用 域 中 声明 如 下 的 静态 变量 


static Module *Module Ob; 
static IRBuilder<> Builder(getGlobalContext()); 


static std::map<std::string, Value*>Named Values; 


工作 原理 


Module_Ob 模 块 包含 了 代码 中 的 所 有 函数 和 变量 。 


Builder 对 象 帮 助 生成 LLYM IR 并 且 记 录 程 序 的 当前 点 ， 以 插入 
LLVM 指 令 。 另 外 ，Builder 对 象 有 创建 新 指令 的 函数 。 


Named_Valuesmap 对 象 记录 当前 作用 域 中 的 所 有 已 定义 值 ， 充 当 
符号 表 的 功能 。 对 我 们 的 TOY 语 言 来 说 ， 这 个 map 也 会 包含 函数 参数 


LY. 
信息 o 


为 表达 式 生 成 IR 代 码 


本 节 将 展示 如 何 使 用 编译 占 前 端 来 为 表达 式 生 成 IR 代 码 。 


详细 步骤 


为 了 实现 TOY 语 言 的 LLVM IR 代 码 生 成 器 ， 需 要 执行 以 下 步骤 。 


1. 打开 toy.cpp 文 件 : 
$ vi toy.cpp 
2. 为 数值 变量 生成 代码 的 函数 定义 如 下 : 


Value *NumericAST::Codegen() { 
return ConstantInt::get(Type::getInt32Ty(getGlobalContext()), 
numeric val); 


j 


TELLVM IR 中 ， 整 数 常 量 由 ConstantInt 类 表示 ， 它 的 值 由 APInt 类 
持 有 。 


3. YAR IATL BCS AT EN BE SOUT FP 


Value *VariableAST::Codegen() { 
Value *V = Named_Values[Var_Name]; 


return V? V : 0; 


4. JUS TUN Codegen) KELE CU F: 


Value *BinaryAST::Codegen() { 
Value *L = LHS->Codegen(); 
Value *R - RHS-»Codegen(); 


if(L == 0 || R == 0) return 0; 


switch(atoi(Bin Operator.c str())) { 


case '*' : return Builder.CreateAdd(L, R, "addtmp"); 


case '-' : return Builder.CreateSub(L, R, "subtmp"); 
case '*' : return Builder.CreateMul(L, R, "multmp"); 
case '/' : return Builder.CreateUDiv(L, R, "divtmp"); 


default : return 0; 


如 果 上 面 的 代码 生成 了 多 个 addtmp 变 量 ，LLVM 会 自动 为 每 一 个 
addtmp 添 加 递增 的 、 唯 一 的 数值 后 缀 加 以 区 分 。 


PRAN 


。 FPR RR EE BIR (RAS, ARRI AE RIE 


Jk ° 
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AT Ir MMA KRE BIR AVES o 


详细 步骤 


执行 以 下 步骤 。 


1. 函数 调用 的 Codegen(0) 函 数 定义 如 下 : 


Value *FunctionCallAST::Codegen() { 

Function *CalleeF - 

Module Ob-»getFunction(Function Callee); 

std: :vector<Value*>Argsv; 

for(unsigned i = 0, e = Function Arguments.size(); 

i != e; ++i) { 
ArgsV.push_back(Function_Arguments[i]->Codegen()); 
if(ArgsV.back() == 0) return 0; 

} 

return Builder.CreateCall(CalleeF, ArgsV, "calltmp"); 


SENT KBAR, eB VAT ECT X89 22307 Codegen() KE, 
最 后 创建 LLVM 调 用 指令 。 


2. 既然 函数 调用 的 Codegen(0) 函 数 已 经 定义 ， 是 时 候 为 函数 声明 和 
RATE LE HlCodegen) ERZ T. » 


函数 声明 的 Codegen0 函 数 定 义 如 下 : 


Function *FunctionDeclAST::Codegen() { 
std: :vector<Type*>Integers(Arguments.size(), 
Type: :getInt32Ty(ge 
tGlobalContext())); 
FunctionType *FT = 
FunctionType::get(Type::getInt32Ty(getGlobalC 
ontext()), Integers, false); 
Function *F - Function::Create(FT, Function::ExternalLinkage, 


Func Name, Module Ob); 
if(F->getName() != Func Name) { 
F->eraseFromParent(); 


F = Module_Ob->getFunction(Func_Name) ; 


if(!F->empty()) return 0; 


if(F->arg size() != Arguments.size()) return 0; 


unsigned Idx = 0; 


for(Function::arg iterator Arg It - F-»arg begin(); Idx 
Arguments.size(); ++Arg It, ++Idx) { 
Arg It-»-setName(Arguments[Idx]); 


Named Values[Arguments[Idx]] - Arg It; 


return F; 


函数 定义 的 Codegen0 函 数 定 义 如 下 : 


Function *FunctionDefnAST::Codegen() { 


Named Values.clear(); 


Function *TheFunction = Func Decl-»Codegen(); 


if(TheFunction -- 0) return 0; 


BasicBlock *BB 
BasicBlock::Create(getGlobalContext()," "entry", 
TheFunction); 


Builder.SetInsertPoint(BB); 


if(Value *RetVal = Body->Codegen()) { 
Builder.CreateRet(RetVal); 
verifyFunction(*TheFunction); 


return TheFunction; 


TheFunction-»eraseFromParent(); 


return 0; 


3. 好 了 ，LLVM IR 已 经 准备 好 了 1! 这 些 Codegen() 画 数 会 被 解析 顶 
层 表 达 式 的 包装 函数 调用 ， 定 义 如 下 : 


static void HandleDefn() { 
if (FunctionDefnAST *F - func defn parser()) { 
if(Function* LF = F-»Codegen()) { 
} 
} 


else { 


next token(); 


i 


static void HandleTopExpression() { 
if(FunctionDefnAST *F = top level parser()) { 
if(Function *LF = F-»Codegen()) { 
} 
} 


else { 


next token(); 


所 以 ， 在 成 功 解 析 之 后 ， 相 应 的 Codegen0 函 数 会 被 调用 以 生成 
LLVM IR。 而 dumpO 函 数 则 会 被 调用 以 输出 生成 的 IR。 


工作 原理 


Codegen) KELE MF LLVM PIER EX BU Val FA SE BIR, KEE 
引入 这 些 头 文件 : Ilvm/IR/Verifier.h ^ Ilvm/IR/DerivedTypes.h ` 
llvm/IR/IRBuilder.h ` llym/IR/LLVMContext.h^lllvm/IR/Module.h ° 


1. 在 编译 的 时 候 ， 这 些 代 码 需 要 链接 到 LLVM 库 中 ， 因 此 llvm- 
config 工 具 能 够 派 上 用 场 : 


llvm-config --cxxflags --ldflags --system-libs --libs core 


2. 因此 toy 程 序 也 需要 重新 编译 ， 并 添加 一 些 人 额外 的 参数 : 


$ clang++ -03 toy.cpp ‘llvm-config --cxxflags --ldflags -- 
system-libs 


--libs core” -o toy 


3. "toy Eds fEexamplefir ESTR, "€ BU HJ 
LLVM IR: 


$ ./toy example 


define i32 @foo (132 %x, i32 %y) { 


entry: 
%multmp = muli32 %y, 16 
%addtmp = add i32 %x, %multmp 


reti32 %addtmp 


另 一 个 示例 程序 example2 包 含 一 个 函数 调用 : 


$ cat example2 


foo(5, 6); 


会 得 到 如 下 的 LLVM IR: 


$ ./toy example2 
define i32 Q1 () { 
entry: 
%calltmp - call i320foo(i32 5, i32 6) 


reti32 %calltmp 


e X T Clang + Hl C285; HY Codegen() ER AX HY TE 2H 8s. , 
http://lIvm.org/viewvc/llvm-project/cfe/trunk/lib/CodeGen/ ° 


增加 IR 优 化 支持 


请 参 


a 


y) 


LLVM 提 供 了 多 种 多 样 的 优化 Pass， 并 且 允 许 第 三 方 编译 器 实现 来 
决定 使 用 哪些 优化 ， 及 优化 的 顺序 等 。 本 节 介 绍 如 何 增加 IR 优 化 文 


持 。 


详细 步骤 


执行 以 下 步骤 o 


1. 在 增加 IR 优 化 支持 之 前 ， 先 定义 一 个 静态 变量 来 管理 函数 ， 如 
P: 


static FunctionPassManager *Global FP; 


2. 然后 需要 为 之 前 使 用 的 Module 对 象 定义 一 个 函数 Pass 管 理 器 
4E X T main) wa #: 


FunctionPassManager My FP(TheModule); 


UJ 


. MÆ n] N Emain ELBE RAEM Pass T : 


My FP.add(createBasicAliasAnalysisPass()); 
My FP.add(createInstructionCombiningPass()); 
My FP.add(createReassociatePass()); 

My FP.add(createGVNPass( )); 


My FP.doInitialization(); 


I; 


BERK AJ Passt [E 4 LASER Pass FEE 6 


Global FP - &My FP; 


Driver(); 


这 个 PassManager 有 一 个 名 为 rm 的 方法 ， 我 们 可 以 在 函数 定义 的 
Codegen(0 返 回 之 前 运行 这 个 方法 生成 IR。 展 示 如 下 : 


Function* FunctionDefnAST::Codegen() { 
Named Values.clear(); 
Function *TheFunction = Func Decl-»Codegen(); 
if (!TheFunction) return 0; 
BasicBlock “BB =  BasicBlock::Create(getGlobalContext(), 
"entry", 
TheFunction); 
Builder.SetInsertPoint(BB); 
if (Value* Return Value = Body->Codegen()) { 
Builder.CreateRet(Return Value); 
verifyFunction(*TheFunction); 
Global FP->run(*TheFunction); 
returnTheFunction; 
} 
TheFunction->eraseFromParent(); 


return 0; 


这 样 的 优化 有 许多 优势 ， 因 为 它 就 地 (inplace) 改变 函数 体 ， 即 
直接 改进 函数 体 生成 的 代码 ， 而 不 会 进行 复制 。 


FDD 


。 关 于 如 何 增加 自 定义 的 优化 Pass 及 其 run 方 法 将 会 在 之 后 的 章节 演 
示 。 


[1] 非 终结 符号 : 在 形式 语言 中 ， 非 终结 符号 指 的 是 ， 根 据 推 寻 规 
则 ， 可 以 被 其 他 符号 蔡 换 的 符号 。 一 一 详 者 注 


[2] 终结 符号 : 在 形式 语言 中 ， 终 结 符号 是 语言 的 基本 符号 ， 它 不 
可 以 被 分 解 或 蔡 换 。 也 就 是 说 推导 到 终结 符号 时 推导 过 程 便 终结 
一 一 译 者 注 


[3] 上 下 文 无 关 语法 : Context-Free Grammar (CFG) , X»- Y, X 
可 以 被 Y 替 换 ， 而 无 须 考 虑 X 的 上 下 文 ， 在 这 里 X 是 一 个 非 终结 人 符 。 与 
之 对 应 的 是 上 下 文 相关 语法 ，aX >= Y, bX >=Z， 在 不 同 的 推导 规则 中 
X 具 有 不 同 的 语义 ， 因 此 称 之 为 上 下 文 相关 语法 。 一 一 译 者 注 


[4] 这 里 使 用 vim 编 辑 器 ， 你 也 可 以 采用 其 他 的 。 一 一 译 者 注 


[5] 原文 为 a string of tokens ， 译 者 认为 原文 可 能 存在 错误 ， 应 为 
stream of tokens, WORE FXF tokeni ° 译 者 注 


[6] 原文 为 把 全 局 静态 范 数 Pass 管 理事 复制 给 当前 的 管理 融 ， 详 考 
根据 代码 纠正 此 处 错误 。 一 一 译 者 注 


第 3 章 P 展 前 器 并 增加 JIT 文 持 


KE S EA NIER ° 


。 处 理 条 件 控制 结构 
。 生成 循环 结构 

。 处理 自 定义 二 元 运算 符 
。 处理 自 定义 一 元 运算 符 
。 增 加 JIT 支 持 


概述 


在 第 2 章 中 ， 我 们 已 经 实现 了 一 门 语言 的 前 端 组 件 的 基本 框架 ， 包 
括 为 不 同类 型 的 表达 式 定义 token， 实 现 一 个 词法 分 析 器 来 把 代码 构建 
成 token 流 ， 定 义 了 各 种 类 型 表达 式 的 AST， 实 现 了 语法 分 析 器 ， 并 且 
为 语言 生成 了 LLVM IR 代 码 。 另 外 ， 我 们 也 展示 了 如 何在 前 端 调用 各 
种 优化 器 。 


if/then/else 结 构 


但 是 这 时 候 TOY 语 言 还 不 够 完备 ， 因 为 它 还 不 具备 基本 的 控制 流 
和 循环 ， 只 有 具备 了 这 些 ， 它 才 算 得 上 强大 并 具有 表现 力 。JII 文 持 则 
探讨 了 在 运行 时 即时 编译 代码 的 可 能 性 。 本 章 将 讨论 这 些 更 加 复杂 的 
语言 特性 及 其 实现 ， 这 些 特性 增强 了 TOY 语 言 ， 使 得 TOY 语 言 更 加 实 
用 、 更 加 强大 。 本 章 的 几 下 展示 了 如 何 为 一 门 给 定 的 语言 增加 这 些 特 
PE e 


处 理 条 件 控制 结构 
结构 


对 于 任何 编程 语言 来 说 ， 如 果 它 能 够 基于 一 定 的 条 件 执行 一 条 语 
人 句 ， 那 么 这 会 给 这 门 语言 这 来 非常 强大 的 优势 。 语 言 中 常见 的 条 件 控 
制 结 构 如 ithen/else， 赋 予 了 一 门 语言 能 够 根据 特定 条 件 修 改 程序 控制 
流 的 能 力 。I 语 名 表示 条 件 ， 如 采 条 件 为 真 ， 则 执行 hen 结 构 之 后 的 语 
句 ， 否 则 执行 else 结 构 之 后 的 语句 。 本 节 介 绍 了 解析 if/then/else 结 构 以 
及 为 其 解析 和 生成 代码 的 一 些 基本 方法 。 


准备 工作 


— 


TOY zi Wif/then/elsexe Y. ZI F: 


if/then/else 


if x« 2 then 


为 了 检查 条 件 ， 至 少 需要 一 个 比较 运算 符 。 这 里 使 用 了 “<”， 一 个 
简单 的 小 于 运算 符 。 为 了 处 理 < WiXrinit precedenceQ Ha "P XE ML 
运算 符 的 优先 级 ， 如 下 : 


static void init precedence() ( 


Operator Precedence['«'] = 0; 


A, TN 7c RIA TCH Codegen) aN tH BME, DAE 
操作 符 : 


Value* BinaryAST::Codegen() { 


case '«' : 
L - Builder.CreateICmpULT(L, R, "cmptmp"); 
return Builder.CreateZExt(L, 
Type: :getInt32Ty(getGlobalContext()), 
"booltmp");... 


现在 ，LLVM IR 将 生成 一 个 比较 指令 及 布尔 指令 作为 比较 结果 ， 
而 比较 结果 则 会 决定 程序 的 控制 流 。 有 了 以 上 的 基础 ， 我 们 现在 可 以 
处 理 if/then/else 模 式 了 。 


详细 步骤 


HITA FEIR ° 


1. H f Ab3üif/then/elseZ& 15 , toy.cpp X: £F FH JST 23 PT 8S da ET 
展 。 首 先 在 enum 类 型 中 增加 一 种 token 类 型 : 


enum Token_Type{ 


IF TOKEN, 
THEN TOKEN, 


ELSE TOKEN 
j 


2. 然后 在 get_token(0) 函 数 中 增加 这 些 token 的 条 目 ， 它 们 匹配 字符 
串 并 返回 相应 的 token: 


static int get token() { 


if(Identifier string -- "def") return DEF TOKEN; 
if(Identifier string -- "if") return IF TOKEN; 
if(Identifier string -- "then") return THEN TOKEN; 
if(Identifier string -- "else") return ELSE TOKEN; 
} 


3. HEE TEtoy.cpp X Lr FE LAST P A: 


class ExprIfAST : public BaseAST { 
BaseAST *Cond, *Then, *Else; 
public: 
ExprIfAST(BaseAST *cond, BaseAST *then, BaseAST * else st) 
Cond(cond), Then(then), Else(else st) {} 


Value *Codegen() override; 


}; 
4. 接着 为 if/then/else 结 构 定 义 解析 逻辑 : 


static BaseAST *If parser() { 


next token(); 


BaseAST *Cond - expression parser(); 
if (!Cond) 


return 0; 


if (Current token !- THEN TOKEN) 
return 0; 


next token(); 


BaseAST *Then - expression parser(); 
if (Then -- 0) 


return 0; 


If (Current token !- ELSE TOKEN) 


return 0; 


next token(); 


BaseAST *Else - expression parser(); 
if (!Else) 


return 0; 


return new ExprlIfAST(Cond, Then, Else); 


解析 逻辑 倒 是 很 简单 : 首先 查找 if token， 以 及 解析 紧 随 其 后 的 条 
件 表达 式 。 之 后 是 标识 then token， 以 及 解析 true 条 件 表 达 式 ; 最 后 是 
查找 else token 和 解析 false 条 件 表达 式 。 


5. 还 需要 把 之 前 定义 的 函数 和 Base_Parser() 连 接 在 一 起 : 


static BaseAST* Base Parser() ( 


switch(Current token) ( 


case IF TOKEN : return If parser(); 


6. HERif/then/elseZ&TJRJ ASTU ZEOBTEADTERIBITO AIT, FR 
下 来 就 是 为 其 生成 LLVM IR f, LEE RAE Codegen) HR: 


Value *ExprIfAST::Codegen() { 
Value *Condtn = Cond-»Codegen(); 
if (Condtn -- 0) 

return 0; 
Condtn = Builder.CreatelCmpNE( 


Condtn, Builder.getInt32(0), "ifcond"); 


Function *TheFunc = Builder.GetInsertBlock()->getParent(); 


BasicBlock *ThenBB - 
BasicBlock::Create(getGlobalContext(), "then", TheFunc); 
BasicBlock *ElseBB - BasicBlock::Create(getGlobalContext(), 
"else"); 
BasicBlock *MergeBB = BasicBlock::Create(getGlobalContext(), 


"ifcont"); 


Builder.CreateCondBr(Condtn, ThenBB, ElseBB); 


Builder.SetInsertPoint(ThenBB); 


Value *ThenVal = Then-»Codegen(); 


if (ThenVal -- 0) 


return 0; 


Builder.CreateBr(MergeBB); 


ThenBB - Builder.GetInsertBlock(); 


TheFunc-»getBasicBlockList().push back(ElseBB); 


Builder.SetInsertPoint(ElseBB); 


Value *ElseVal = Else-»Codegen(); 
if (ElseVal -- 0) 


return 0; 


Builder.CreateBr(MergeBB); 


ElseBB = Builder.GetInsertBlock(); 


TheFunc->getBasicBlockList().push_back(MergeBB) ; 
Builder .SetInsertPoint (MergeBB) ; 
PHINode *Phi - 
Builder.CreatePHI(Type::getInt32Ty(getGlobalConte 
xt()), 2, "iftmp"); 


Phi->addIncoming(ThenVal, ThenBB); 


Phi->addIncoming(ElseVal, ElseBB); 


return Phi; 


代码 已 经 就 绪 ， 让 我 们 编译 一 下 ， 在 包含 ithen/else 结 构 的 样 例 程 
序 上 编译 和 运行 。 


工作 原理 


执行 以 下 步骤 。 


1. 编译 toy.cpp 文 件 : 


$ g++ -g toy.cpp ‘llvm-config --cxxflags --ldflags --system- 


libs --libs core ^ -03 -o toy 


2. 打开 样 例文 件 : 


$ vi example 


3. 在 样 例文 件 中 编写 一 段 包含 if/then/else 结 构 的 代码 : 


def fib(x) 
if x< 3 then 
1 
Else 
fib(x-1)+fib(x-2); 


4. 用 TOY 编 译 絮 去 编译 样 例文 件 : 


$ ./toy example 


if/then/else 结 构 代 码 生 成 的 LLYM IR 如 下 : 


; ModuleID - 'my compiler' 
target datalayout =  "e-m:e-p:32:32-f64:32:64-f80:32-n8:16:32- 


$128" 


define 132 Qfib(i32 %x) { 
entry: 
%cmptmp = icmp ult 132 %x, 3 


br ii %cmptmp, label %ifcont, label %else 


else: / 
preds = %entry 

%subtmp = add i32 %x, -1 

%calltmp = call i32 Qfib(i32 %subtmp) 

%subtmp1 = add i32 %x, -2 

%calltmp2 = call 132 Qfib(i32 %subtmp1) 

%addtmp = add i32 %calltmp2, %calltmp 


br label %ifcont 


ifcont: / 
preds = %entry, 
%else 

%iftmp = phi i32 [ %addtmp, %else ], [ 1, %entry ] 


ret 132 %iftmp 


得 到 的 输出 如 下 : 


suyog@ubuntu: ~ 


suyog@ubuntu:~$ cat exampLe5 
def fib(x) 
if x < 3 then 
1 
else 
fib(x-1)+fib(x-2); 
suyog@ubuntu:~$ ./toy examples 
; ModuleID = 'my compiler' 
target datalayout = "e-m:e-p:32:32-f64:32:64-f80:32-n8:16:32-S128" 


define i32 @fib(i32 Xx) ( 
entry: 
%cmptmp = icmp ult 132 %x, 3 
br i1 %cmptmp, label %ifcont, Label %else 


else: ; preds = %entry 
%subtmp = add 132 %x, -1 
%calltmp = call i32 @fib(i32 %subtmp) 
%subtmp1 = add i32 %x, -2 
%calltmp2 = call i32 @fib(i32 %subtmp1) 
%addtmp = add i32 %calltmp2, %calltmp 
br label %ifcont 


ifcont: ; preds = %entry, %else 
%iftmp = phi i32 [ %addtmp, %else ], [ 1, %entry ] 
ret i32 %iftmp 


} 


解析 器 会 识别 if/then/else 结 构 以 及 根据 条 件 真 假 执 行 的 相应 语句 ， 
将 数据 存储 于 AST 中 ， 以 构建 AST。 之 后 代码 生成 器 会 把 AST 转 成 
LLVM IR， 条 件 语句 随 之 生成 。 无 论 条 件 为 真 还 是 假 ， 都 会 生成 IR， 
而 具体 执行 哪 一 个 相应 的 分 文 ， 则 取决 于 执行 时 条 件 变量 的 状态 。 


PRAAN 


e 大 于 Clang 如 何 处 理 C++ 语 言 的 if else 语 句 的 一 些 具 体 样 例 ， 请 参 
见 http://clang.llvm.org/doxygen/classclang_1_1IfStmt.html © 


生成 循环 结构 


循环 结构 使 得 语言 能 够 多 次 执行 相同 的 任务 ， 却 只 需要 有 限 的 几 
行 代码 ， 这 是 一 种 强 有 力 的 特性 ， 因 此 几乎 所 有 的 语言 都 会 有 循环 结 
构 。 本 节 将 为 TOY 语 言 实现 循环 结构 。 


准备 工作 


循环 结构 通常 需要 先 初 始 化 一 个 归纳 变量 ， 然 后 对 这 个 变量 做 更 
新 〈 增 加 或 减少 其 数值 ) ， 以 及 一 个 表示 循环 结束 的 终止 条 件 。 因 此 
我 们 的 TOY 语 言 的 循环 结构 定义 如 下 : 


for i= 1, i< n, 1 in 


x + y; 


初始 化 表达 式 是 i = 1， 终 止 条 件 是 i < n， 第 1 行 代码 表示 i 以 1 为 步 
长 递增 。 


只 要 终止 条 件 为 真 ， 循 环 就 不 会 终止 ， 每 次 迭代 ， 归 纳 变 量 i 会 增 
加 1。 这 里 牵涉 一 个 有 趣 的 东西 叫 PHI 六 点 ， 它 会 选择 来 自 不 同 分 支 的 
i， 因 为 我 们 的 IR 是 SSA (single static assignment ， 静 态 单 赋值 ) 形式 
的 。 在 控制 流 图 中 ， 一 个 给 定 的 变量 可 以 来 自 两 个 不 同 的 基本 块 (两 
条 不 同 的 路 径 ) ， 为 了 在 SSA 形 式 的 LLVM IR 中 表达 这 种 分 文 情 况 ， 
需要 用 到 phi 指 令 ， 举 个 例子 : 


%1 = phi i32 [ 1, %entry ], [ %nextvar, %loop | 


xx FAIR K AA 2E iA (BA BÉ m OR AAR: «= entry BY 
者 %loop。 来 目 %entry 块 的 变量 值 是 1， 而 %nextvar 变 量 将 来 目 %loop。 
在 为 TOY 编 译 器 实现 循环 结构 之 后 会 来 查看 这 些 细节 e 


详细 步骤 


束 像 任何 其 他 的 表达 式 一 样 ， 循 环 也 需要 在 词法 分 析 器 中 通过 包 
含 的 状态 来 处 理 ， 定 义 持 有 循环 变量 的 AST 数 据 结 构 ， 以 及 定义 语法 
分 析 器 和 Codegen0 〇 函数 来 生成 LLVM IR: 


1. 首先 在 toy.cpp 文 件 的 词法 分 析 絮 中 定义 token: 


enum Token_Type { 


FOR TOKEN, 
IN TOKEN 


JH 
2. 然后 实现 词法 分 析 的 逻辑 : 


static int get token() { 


if(Identifier string -- "else") 
return ELSE TOKEN; 
if (Identifier string -- "for") 
return FOR TOKEN; 
if (Identifier string -- "in") 


return IN TOKEN; 


3. 接着 为 for 循 环 定义 AST: 


class ExprForAST : public BaseAST { 
std::string Var Name; 


BaseAST *Start, *End, *Step, *Body; 


public: 
ExprForAST (const std::string &varname, BaseAST *start, 
BaseAST 
*end, 
BaseAST *step, BaseAST *body) 
: Var Name(varname), Start(start), End(end), Step(step), 
Body(body) {} 


Value *Codegen() override; 


}; 
4. 然后 为 循环 结构 定义 解析 人 逻辑 : 


static BaseAST *For parser() { 


next token(); 


if (Current token !- IDENTIFIER TOKEN) 


return 0; 


std::string IdName - Identifier string; 


next token(); 


if (Current token != '=') 
return 0; 


next token(); 


BaseAST *Start - expression parser(); 
if (Start -- 0) 

return 0; 
if (Current token !- ',') 

return 0; 


next token(); 


BaseAST *End - expression parser(); 
if (End -- 0) 


return 0; 


BaseAST *Step - 0; 

if (Current token == ',') { 
next token(); 
Step - expression parser(); 
if (Step -- 0) 

return 0; 
} 
if (Current token !- IN TOKEN) 


return 0; 


next token(); 


BaseAST *Body - expression parser(); 
if (Body -- 0) 


return 0; 


return new ExprForAST (IdName, Start, End, Step, Body); 


5. FEE X. Codegen) KELE BYLLVM IR: 


Value *ExprForAST::Codegen() { 


Value *StartVal = Start-»Codegen(); 


if (StartVal -- 0) 
return 0; 
Function *TheFunction - Builder .GetInsertBlock() - 


>getParent(); 
BasicBlock *PreheaderBB = Builder.GetInsertBlock(); 
BasicBlock *LoopBB = 
BasicBlock::Create(getGlobalContext(), "loop", 


TheFunction); 


Builder.CreateBr(LoopBB); 


Builder.SetInsertPoint(LoopBB); 


PHINode *Variable - 


Builder .CreatePHI(Type: :getInt32Ty(getGlobal 
Context()), 2, Var Name.c str()); 


Variable->addIncoming(StartVal, PreheaderBB); 


Value *OldVal = Named Values[Var Name]; 


Named Values[Var Name] - Variable; 


if (Body->Codegen() == 0) 


return 0; 


Value *StepVal; 
if (Step) { 

StepVal = Step->Codegen(); 

if (StepVal == 0) 

return 0; 

) else { 

StepVal - ConstantInt::get(Type::getInt32Ty(getGlobalConte 

xt()), 1); 

} 


Value *NextVar = Builder.CreateAdd(Variable, StepVal, 


"nextvar"); 


Value *EndCond = End-»Codegen(); 
if (EndCond -- 0) 


return EndCond; 


EndCond = Builder.CreatelCmpNE( 
EndCond, ConstantInt::get(Type::getInt32Ty(getGlobalConte 


xt()), 0), "loopcond"); 


BasicBlock *LoopEndBB = Builder.GetInsertBlock(); 
BasicBlock *AfterBB - 
BasicBlock::Create(getGlobalContext(), "afterloop", 


TheFunction); 
Builder.CreateCondBr(EndCond, LoopBB, AfterBB); 
Builder.SetInsertPoint(AfterBB); 
Variable->addIncoming(NextVar, LoopEndBB); 
if (OldVal) 
Named Values[Var Name] - OldVal; 
else 


Named Values.erase(Var Name); 


return Constant::getNullValue(Type::getInt32Ty(getGlobalConte 


xt())); 
j 


工作 原理 


执行 以 下 步骤 。 
1. 编译 toy.cpp 文 件 : 


$ g++ -g toy.cpp ‘llvm-config --cxxflags --ldflags --system- 


libs --libs core ^ -03 -o toy 


2. 打开 样 例文 件 : 


$ vi example 


3. 在 样 例文 件 中 编写 以 下 包含 for 循 环 的 代码 : 


def printstar(n x) 
for i = 1, i< n, 1.0 in 


X + 1 


A. FATOY Sa as eg FEE: 


$ ./toy example 


5. 前 面 的 for 循 环 代码 会 生成 以 下 的 LLVM IR: 


; ModuleID = ‘my compiler’ 
target datalayout = "e-m: e-p:32:32-f64:32:64-f80:32-n8:16:32- 
$128” 


define i32 @printstar(i32 %n, i32 %x) { 
entry: 


br label $loop 


loop: ; preds = %loop, 

%entry 
%i = phi i32 [1, %entry], [ %nextvar, %loop] 
%nextvar = add i32 %1, 1 
%cmptmp = icmp ult 132 %i, %n 


br i1 %cmptmp, label %loop, label %afterloop 


afterloop: ; preds = %loop 


Ret i32 0 


解析 融会 识别 循环 结构 ， 包 括 初 始 化 归纳 变量 、 终 止 条 件 ， 以 及 
归纳 变量 的 步 长 值 和 循环 体 。 然 后 它 会 像 之 前 做 的 那样 ， 把 块 转 成 
LLVM IR ° 


之 前 已 经 提 到 ，phi 指 令 会 从 两 个 基本 块 %entry 和 %loop 得 到 变量 i 
的 两 个 值 。 在 之 前 的 例子 中 ，%entry 块 表示 在 循环 初始 化 时 对 i 峰值 为 
1; 而 %loop 块 对 i 的 值 进 行 更 新 ， 完 成 循环 的 一 次 从 代 。 


PRAAN 


e 关于 Clang 是 如 何 实 现 C++ 的 循环 结构 ， 请 参见 
http://llvm.org/viewvc/llvm- 


project/cfe/trunk/lib/Parse/ParseExprC X X.cpp ° 
N — — yo 
处 理 目 定义 二 元 运算 符 


用 户 目 定义 运 滤 符 和 C++ 中 运算 符 重 载 的 概念 相似 ， 一 个 默认 的 
运算 符 被 修改 用 于 多 种 多 样 的 对 象 。 通 前 来 说 ， 运 算 符 会 是 一 元 或 者 
二 元 运算 符 。 在 现存 的 架构 下 实现 二 元 运算 符 是 相对 轻松 的 ， 但 一 元 
运算 特需 要 一 些 额 外 的 代码 来 处 理 。 所 以 我 们 先 定 义 二 元 运算 符 的 重 
载 ， 之 后 再 考虑 一 元 运算 符 的 重 载 。 


准备 工作 


自 定 义 运算 符 的 第 一 步 是 定义 重 载 的 二 元 运算 符 ， 我 们 用 | (逻辑 
或 运算 符 ) 作为 样 例 ，TOY 语 言 中 的 | 运算 符 是 这 样 使 用 的 : 


def binary | (LHS RHS) 
if LHS then 

1 

else if RHS then 


1 


else 


0; 


从 这 段 代 码 可 以 看 出 ， 只 要 LHS 或 者 RHS 任 何 一 个 不 为 0， 那 么 就 
返回 1。 如 果 LHS 和 RHS 都 为 null， 则 返回 0 。 


详细 步骤 


执行 以 下 步骤 o 


binary EFI EHV HEREN. 


enum Token Type { 


BINARY TOKEN 


} 
static int get_token() { 


if (Identifier_string == "in") return IN_TOKEN; 


if (Identifier_string == "binary") return BINARY_TOKEN; 


2. 然后 需要 为 其 增加 AST。 不 过 在 这 里 不 需要 定义 一 个 新 的 
AST， 只 需要 修改 钞 数 声 明 的 AST 束 能 处 理 。 不 过 ， 我 们 需要 为 其 增 
加 一 个 标识 来 表示 它 是 否 是 二 方 运算 符 。 如 琳 是 运算 符 ， 表 确定 它 的 
优先 级 : 


class FunctionDeclAST { 
std::string Func Name; 
std::vector<std::string> Arguments; 
bool isOperator; 
unsigned Precedence; 
public: 
FunctionDeclAST(const std::string &name, const 
std::vector<std::string> &args, 
bool isoperator - false, unsigned prec - 0) 
Func Name(name), Arguments(args), 
isOperator(isoperator), 
Precedence(prec) {} 
bool isUnaryOp() const { return isOperator && 


Arguments.size() 


bool isBinaryOp() const { return isOperator && 


Arguments.size() 


char getOperatorName() const ( 
assert(isUnaryOp() || isBinaryOp()); 


return Func Name[Func Name.size() - 1]; 


unsigned getBinaryPrecedence() const ( return Precedence; 


Function *Codegen(); 


H 


3. EASTIETURE Zn, BECEL EBUS BH BERT ae: 


static FunctionDeclAST *func decl parser() { 


std::string FnName; 


unsigned Kind - 0; 


unsigned BinaryPrecedence - 30; 


switch (Current token) { 
default: 
return 0; 
case IDENTIFIER TOKEN: 
FnName - Identifier string; 
Kind = 0; 
next token(); 
break; 
case UNARY TOKEN: 
next token(); 


if (!isascii(Current token)) 


return 0; 

FnName = "unary"; 

FnName += (char)Current token; 

Kind = 1; 

next token(); 

break; 

case BINARY TOKEN: 

next token(); 

if (!isascii(Current token)) 
return 0; 

FnName = "binary"; 

FnName += (char)Current token; 

Kind - 2; 


next token(); 


if (Current token -- NUMERIC TOKEN) ( 
if (Numeric Val« 1 || Numeric Val » 100) 
return 0; 
BinaryPrecedence - (unsigned)Numeric Val; 
next token(); 


j 


break; 


if (Current token !- '(') 


return 0; 


std::vector«std::string» Function Argument Names; 
while (next token() -- IDENTIFIER TOKEN) 

Function Argument Names.push back(Identifier string); 
if (Current token !- ')') 


return 0; 


next token(); 


if (Kind && Function Argument Names.size() !- Kind) 


return 0; 


return new FunctionDeclAST(FnName, 
Function Argument Names, Kind !- 0, BinaryPrecedence); 


j 


4. BAN 7GLASTRJCodegenQ WAX: 


Value* BinaryAST::Codegen() { 

Value* L - LHS-»Codegen(); 

Value* R = RHS-»Codegen(); 

switch(Bin Operator) { 

case '+' : return Builder.CreateAdd(L, R, "addtmp"); 
case '-' : return Builder.CreateSub(L, R, "subtmp"); 
case '*': return Builder.CreateMul(L, R, "multmp"); 
case '/': return Builder.CreateUDiv(L, R, "divtmp"); 
case '«' 


L - Builder.CreateICmpULT(L, R, "cmptmp"); 


return Builder.CreateUITOoFP(L, 

Type::getIntTy(getGlobalContext()), 

"booltmp"); 

default 

break; 

} 

Function *F = TheModule->getFunction(std::string("binary")+0p); 
Value *Ops[2] = { L, R}; 


return Builder.CreateCall(F, Ops, "binop"); 


5. RABE CAE, BILT: 


Function” FunctionDefnAST::Codegen() { 
Named Values.clear(); 
Function *TheFunction = Func Decl-»Codegen(); 
if (!TheFunction) return 0; 
if (Func Decl-»isBinaryOp()) 
Operator Precedence [Func Decl-»getOperatorName()] = Func_ 
Decl->getBinaryPrecedence( ); 
BasicBlock *BB = BasicBlock::Create(getGlobalContext(), 
"entry", 
TheFunction); 
Builder.SetInsertPoint(BB); 
if (Value* Return Value = Body->Codegen()) { 


Builder.CreateRet(Return Value); 


工作 原理 


执行 以 下 步骤 。 
1. 编译 toy.cpp 文 件 : 


$ g++ -g toy.cpp ‘llvm-config --cxxflags --ldflags --system- 


libs --libs core ^ -03 -o toy 


2. 打开 样 例文 件 : 


$ vi example 


3. 在 样 例文 件 中 写 下 包含 二 元 运算 符 重 载 的 代码 : 


def binary| 5 (LHS RHS) 
if LHS then 
1 
else if RHS then 


1 


else 


0; 
4. EHI TOY da VE ge RI VERE DA SCIT: 


$ ./toy example 
output : 


; ModuleID - 'my compiler' 
target datalayout = "e-m:e-p:32:32-f64:32:64-f80:32-n8:16:32- 
$128" 
define i32 @"binary|"(i32 %LHS, i32 %RHS) { 
entry: 
%ifcond = icmp eq i32 %LHS, 0 
%ifcond1 = icmp eq i32 %RHS, 0 
%. = select i1 %ifcond1, i32 0, i32 1 
%iftmp5 = select i1 %ifcond, i32 %., 132 1 


ret 132 %iftmp5 


我 们 之 前 定义 的 二 元 运算 符 以 及 它 的 定义 会 被 解析 。 一 旦 遇 到 一 
个 | 二 元 运算 符 ， 会 初始 化 LHS 和 RHS， 并 且 执 行 其 函数 体 ， 按 定义 得 
到 相应 的 结果 。 在 前 面 的 样 例 中 ， 只 要 LHS 和 RHS 中 的 任意 一 个 为 非 
F, ERMEL 如 果 LHS 和 RHS 都 是 0[， 则 结果 是 0。 


PRAN 


e 关于 处 理 二 元 运算 符 的 详细 样 例 ， 请 参见 http:Vllvm.org/docs/ 
tutorial/LangImpl6.html ° 


处 理 目 定义 一 元 运算 符 
前 一 节 展 示 了 如 何 处 理 自 定义 二 元 运算 符 ， 但 一 门 语言 不 仅仅 有 


二 元 运算 伯 ， 还 会 有 一 元 运算 符 ， 操 作 单 个 的 操作 数 。 本 市 介绍 如 何 
处 理 一 元 运算 符 。 


准备 工作 


和 之 前 一 样 ， 需 要 先 在 TOY 语 言 中 定义 一 元 运算 符 ， 我 们 用 一 个 
简单 的 ! GRRE) 运算 符 作 为 样 例 ， 其 定义 如 下 : 


def unary!(v) 


if v then 


else 


如 条 变量 v 的 值 是 真 ， 则 返回 0， 否 则 返回 1 。 


详细 步骤 


执行 以 下 步骤 。 
1. 首先 在 toy.cpp 文 件 中 为 一 元 运算 符 定 义 enum token: 


enum Token Type ( 


BINARY TOKEN, 


UNARY. TOKEN 
j 


^ 


2. 然后 识别 一 元 运算 符 字符 品 ， 返 回 UNARY_TOKEN: 


static int get token() { 


if (Identifier string == "in") return IN TOKEN; 

if (Identifier string -- "binary") return BINARY TOKEN; 
if (Identifier string -- "unary") return UNARY TOKEN; 

} 


3. 接着 为 一 元 运算 从 定义 AST: 


class ExprUnaryAST : public BaseAST { 
char Opcode; 


BaseAST *Operand; 


public: 
ExprUnaryAST(char opcode, BaseAST *operand) 
: Opcode(opcode), Operand(operand) {} 
virtual Value *Codegen(); 


}; 
4. AST 已 经 就 绕 ， 再 为 一 元 运算 和 从 定义 一 个 解析 器 


static BaseAST *unary_parser() { 


if (!isascii(Current token) || Current token == '(' 
Current 
token == ',') 


return Base Parser(); 


int Op - Current token; 


next token(); 


if (EXprAST *Operand - unary parser()) 


return new ExprUnaryAST(Opc, Operand); 


return 0; 


7 
SE 
alu 
a 
" 


ie AST RUIT as P Val H unary_parser() HV: 


static BaseAST *binary op parser(int Old Prec, BaseAST *LHS) ( 


while (1) { 


int Operator Prec - getBinOpPrecedence(); 


if (Operator Prec« Old Prec) 


return LHS; 


int BinOp - Current token; 


next token(); 


BaseAST *RHS - unary parser(); 
if (!RHS) 


return 0; 


int Next Prec - getBinOpPrecedence(); 

if (Operator Prec« Next Prec) { 
RHS = binary op parser(Operator Prec + 1, RHS); 
if (RHS -- 0) 


return 0; 


LHS - new BinaryAST(std::to string(BinOp), LHS, RHS); 


6. 现在 从 表达 式 解 析 器 中 调用 uanry_parser(0 函 数 : 


static BaseAST *expression parser() ( 
BaseAST *LHS - unary parser(); 
if (!LHS) 


return 0; 


return binary op parser(0, LHS); 


7. CEL ERELEDEN Te: 


static FunctionDeclAST* func decl parser() { 
std::string Function Name - Identifier string; 
unsigned Kind - 0; 
unsigned BinaryPrecedence - 30; 
switch (Current token) { 
default: 
return 0; 
case IDENTIFIER TOKEN: 
Function Name - Identifier string; 
Kind = 0; 
next token(); 
break; 
case UNARY TOKEN: 
next token(); 
if (!isascii(Current token)) 
returnO; 


Function Name = "unary"; 


Function Name += (char)Current token; 
Kind = 1; 
next token(); 
break; 
case BINARY TOKEN: 
next token(); 
if (!isascii(Current token)) 
return 0; 
Function Name - "binary"; 
Function Name += (char)Current token; 
Kind - 2; 
next token(); 
if (Current token -- NUMERIC TOKEN) ( 
if (Numeric Val« 1 || Numeric Val » 100) 
return 0; 
BinaryPrecedence - (unsigned)Numeric Val; 


next token(); 


break; 

} 
if (Current token ! = '(') { 

printf("error in function declaration"); 

return 0; 
} 
std::vector<std::string> Function Argument Names; 
while(next token() == IDENTIFIER TOKEN) 


Function Argument Names.push back(Identifier string); 


if(Current token !- ')') { 

printf("Expected')' "); 

return 0; 
5 
next token(); 
if (Kind && Function Argument Names.size() !- Kind) 

return 0; 

return new FunctionDeclAST(Function Name, Function Arguments 
Names, Kind !=0, BinaryPrecedence); 


} 


8. Ur eA — 705 RITEN Codegen) KZN: 
Value *ExprUnaryAST::Codegen() { 
Value *OperandV = Operand-»Codegen(); 
if (OperandV -- 0) return 0; 
Function *F - TheModule- 
>getFunction(std::string("unary")+0pco 


de); 


if (F == 0) 


return 0; 


return Builder.CreateCall(F, OperandV, "unop"); 


工作 原理 


执行 以 下 步骤 。 
1. 编译 toy.cpp 文 件 : 


$ g++ -g toy.cpp ‘llvm-config --cxxflags --ldflags --system- 
libs --libs 


core ^ -03 -o toy 


2. 打开 样 例文 件 : 


$ vi example 


3. 在 样 例文 件 中 编写 包含 一 元 运算 符 重 载 的 代码 : 


def unary!(v) 


if v then 


else 


4. FATOY Sait 2828 EF AE: 


$ ./toy example 


输出 如 下 : 
; ModuleID = 'my compiler' 
target datalayout = "e-m:e-p:32:32-f64:32:64-f80:32-n8:16:32- 
$128" 


define i32 Q"unary!"(i32 %v) { 
entry: 
%ifcond = icmp eq i32 Xv, 0 
%. = select i1 %ifcond, 132 1, i32 0 


ret 132 %. 


Fi PE XL T7028 ESL S BOA ^ RENT. MAI ERIR * AFL 
例子 中 的 一 元 运算 符 ! ， 如 果 操 作 数 非 零 ， 那 么 结果 就 是 0， 否 则 厦 
1e 


。 天 于 一 元 运算 符 的 实现 细 市 ， 请 参见 
http://llvm.org/docs/tutorial/LangImpl6.html ° 


增加 JIT 支 持 


各 种 各 样 的 工具 可 用 于 LLVM IR。 如 第 1 章 所 示 ，IR 能 够 转 成 
bitcode 或 者 汇编 语言 。 一 个 叫 作 opt 的 优化 工具 也 能 作用 于 IR。 所 以 我 
们 通 肖 把 IR 理 解 为 一 个 通用 的 平台 一 一 这 些 工 具 的 抽象 层 。 


JIT 岂 支持 也 能 在 IR 上 运行 。 它 能 立即 对 输入 的 顶级 表达 式 进行 
求 值 ， 例 如 你 输入 了 1+2， 它 能 对 代码 求 值 并 输出 运算 结果 3 。 


详细 步骤 


执行 以 下 步 又。 
1. 在 toy.cpp 文 件 中 定义 一 个 执行 引擎 作为 全 局 静态 变量 : 
static ExecutionEngine *TheExecutionEngine; 


2. 在 toy.cpp 文 件 的 main0) 函 数 中 增加 JIT 相 关 人 代码 : 


int main() { 


init precedence(); 


TheExecutionEngine - EngineBuilder(TheModule).create(); 


3. ZEtoy.cpp X Lr "P E EX AZ A SUT 8 : 


static void HandleTopExpression() { 


if (FunctionDefAST *F - expression parser()) 
if (Function *LF = F->Codegen()) { 
LF -> dump(); 
void *FPtr = TheExecutionEngine- 
>getPointerToFunction(LF); 
int (*Int)() = (int (*)())(intptr t)FPtr; 


printf("Evaluated to %d\n", Int()); 


else 


next token(); 


j 


工作 原理 


执行 以 下 步骤 o 


1. 编译 toy.cpp 程 序 : 


$ g++ -g toy.cpp '"llvm-config --cxxflags --ldflags 
libs --libs 


core mcjit native’ -03 -o toy 


2. 打开 样 例文 件 : 


$ vi example 


3. 在 样 例文 件 中 编写 以 下 TOY 代 码 : 


4*5; 


4. 最 后 ， 在 样 例文 件 中 运行 TOY 编 译 器 : 


$ ./toy example 


输出 如 下 。 


define i32 @0() { 
entry: 


ret 132 9 


--system- 


LLVM 的 JIT 编 译 器 匹配 本 机 的 ABI 平 台 ， 它 会 把 得 到 的 指针 转 成 
相应 类 型 的 函数 指针 ， 然 后 直接 调用 。JIT 编 译 得 到 的 代码 与 静态 编译 
链接 的 本 地 机 器 码 没 有 区 别 。 


[1] JIT: Just-In-Time， 即 时 编译 ， 在 程序 运行 时 将 代码 翻译 成 机 
器 人 码 并 执行 。 与 之 相对 的 是 AOT (Ahead Of Time) ， 它 在 程序 运行 之 
前 束 将 代码 编译 成 机 絮 码 。JIT 结 合 了 AOT 和 解释 执行 的 优势 ， 它 能 够 
产生 高 效 的 机 器 码 ， 并 有 具备 足够 的 灵活 性 。 一 一 译 者 注 


BAE WEIL 


KE in EA NIER o 


多 级 优化 

和 目 定义 LLVM Pass 

。 使 用 opt 工 具 运行 目 定义 Pass 
在 新 的 Pass 中 调用 其 他 Pass 
(E H Pass È ERSE H Pass 

。 实现 一 个 分 析 Pass 

。 实现 一 个 别名 分 析 Pass 

。 使 用 其 他 分 析 Pass 


概述 


在 完成 对 源码 的 转换 之 后 ， 束 会 得 到 LLVM IR 形 式 的 输出 ， 它 作 
为 回 汇 编 代 码 转 换 的 一 个 公共 平台 ， 依 赖 不 同 的 后 端 得 到 不 同 的 汇编 
码 。 在 转 为 汇编 码 之 前 ， 如 果 对 IR 进 行 优化 就 可 以 得 到 执行 效率 更 高 
的 代码 。LLVM IR 是 基于 SSA 形 式 的 ， 这 也 就 意味 着 对 每 个 变量 的 赋 
值 都 会 产生 一 个 新 的 变量 ， 或 者 说 变量 是 不 可 变 的 ， 这 是 SSA 表 示 的 
一 种 经 典 样 例 。 


在 LLVM 的 架构 中 ，Pass 的 作用 是 优化 LLVM IR。Pass 作 用 于 
LLVM IR， 人 处理 IR， 分 析 IR， 寻 找 优 化 的 机 会 并 修改 IR 产 生 优 化 的 代 


码 。 命 令 行 工具 opt 束 是 用 来 在 LLVM IR 上 运行 各 种 优化 Pass 有 的 。 


接 下 来 的 章节 中 会 讨论 多 种 优化 技术 ， 也 包括 如 何 编写 和 注册 一 
个 新 的 优化 Pass 。 


多 级 优化 


通常 编译 器 的 优化 会 有 多 种 级 别 ， 从 0~3 (也 有 s 通 第 用 作 空 间 优 
化 ) ， 优 化 级 别 越 高 ， 代 码 得 到 的 优化 也 越 多 。 让 我 们 来 看 看 不 同 的 
优化 级 别 。 


准备 工作 


通过 在 LLVM IR 上 运行 opt 命 令 行 工具 可 以 帮助 理解 不 同 的 优化 级 
别 。 在 此 之 前 我 们 先 使 用 Clang 前 端 将 C 样 例 程 序 转换 为 IR。 


1. 打开 example.c 文 件 ， 编 写 以 下 代码 : 


$ vi example.c 
int main(int argc, char **argv) { 
int i, j, k, t = 0; 
for(i = 0; i< 10; i++) { 
for(j = 0; j< 10; j++) { 
for(k = 0; k< 10; k++) { 


七 + 十 


for(] = 0; j< 10; j++) d 


for(i = 0; i< 20; i++) { 


for(j = 0; j< 20; j++) 1 


for(j = 0; j< 20; j++) 1 


2. 然后 用 Clang 命 令 把 源码 转 成 LLVM IR: 


$ clang -S -00 -emit-llvm example.c 


会 生成 一 个 包含 LLVM IR 的 example.1 新 文件 ， 它 将 用 作 展 示 多 种 
可 用 的 优化 级 别 。 


详细 步骤 


执行 以 下 步骤 。 
1. 使 用 opt 命 令 行 工 具 优化 包含 生成 I[R 的 example.ll 文 件 : 


$ opt -00 -S example.11 


-O00 表示 最 低 的 优化 级 别 。 
2. 类 似 地 ， 你 可 以 竹 试 其 他 优化 级 别 : 


$ opt -01 -S example.11 
$ opt -02 -S example.11 
$ opt -03 -S example.11 


工作 原理 


opt 命 令 行 工 具 使 用 example.] 文 件 作为 输入 ， 运 行 优化 级 别 对 应 的 
一 系列 Pass。 它 也 能 在 同一 个 优化 级 别 重复 运行 一 些 Pass。 如 有 果 你 需 
要 看 在 每 一 个 优化 级 别 运 行 了 哪些 Pass， 只 需要 为 之 前 的 opt 命 令 增加 - 
-debug-pass=Structure 命 令 行 选 项 。 


。 关于 opt 工 具 能 够 使 用 的 更 多 其 他 选项 ， 请 参见 
http://llvm.org/docs/CommandGuide/opt.html ° 


BE V.LLVM Pass 


LLVM 实 现 了 一 系列 的 分 析 和 转换 Pass， 所 有 的 LLVM Pass 都 是 
pass 类 的 子 类 ， 并 且 通 过 和 覆 写 了 从 pass 类 继承 的 虚 画 数 以 实现 其 功能 。 
任何 一 个 Pass 都 是 Pass LLVM 的 实例 。 


准备 工作 


让 我 们 来 看 看 如 何 上 自己 写 一 个 Pass。 我 们 把 自己 的 Pass 命 名 为 
function block counter， 运 行 时 它 会 识别 展示 函数 名 ， 以 及 对 函数 中 的 
基本 块 进行 计数 。 首 先 我 们 需要 为 这 个 Pass 编 写 一 个 Makefile， 来 构建 
Pass。 执 行 以 下 步骤 ， 编 写 Makefile: 


1. 在 llvm lib/Transform 目 录 下 打开 Makefile 文 件 : 


$ vi Makefile 


2. 在 Makefile 中 指定 LLVM 根 目录 的 路 径 、 库 的 名 字 ， 标 识 模块 为 
可 加 载 ， 如 下 : 


LEVEL = ../../.. 


LIBRARYNAME = FuncBlockCount 


LOADABLE MODULE - 1 


include $(LEVEL)/Makefile.common 


iX Makefilef&4E T Si A RAY AT cpp HFE RE TE T Bec BY 
为 一 个 动态 链接 库 。 


详细 步骤 


执行 以 下 步骤 o 


1. 创建 一 个 名 为 FuncBlockCount.cpp 的 .cpp 文 件 : 


$ vi FuncBlockCount.cpp 


2. 在 文件 中 引入 LLVM 的 一 些 头 文件 : 


Zinclude "llvm/Pass.h" 
Zinclude "llvm/IR/Function.h" 


#include "llvm/Support/raw ostream.h" 


3. S Allvmép 4 zx|H], DEH ER RJLLVMERZI: 


using namespace llvm; 
4. 创建 一 个 匿名 的 命名 空间 : 


namespace { 


5. 然后 声明 Pass: 


struct FuncBlockCount : public FunctionPass { 


6. 声明 Pass 标 识 符 ， 会 被 LLVM 用 作 识 别 Pass: 


static char ID; 


FuncBlockCount() : FunctionPass(ID) {} 


7. 这 是 编写 Pass 最 重要 的 步 又 之 一 一 一 实现 rn 函数 ， 因 为 这 个 
Pass 作 用 于 函数 并 月 继承 了 FunctionPass 类 ， 因 此 定义 runOnFunction 函 
数 ， 在 函数 上 运行 


bool runOnFunction(Function &F) override { 
errs()«« "Function "<< F.getName()«« '^n'; 


return false; 


这 个 函数 会 输出 当前 处 理 的 函数 和 名。 
8. 接 下 来 初始 化 Pass ID: 


char FuncBlockCount::ID = 0; 


9. 最 后 ， 需 要 注册 Pass， 填 写 名 称 、 命 令 行 参数 : 


static RegisterPass<FuncBlockCount> X("funcblockcount", 


"Function Block 


Count", false, false); 


所 有 代码 都 完成 之 后 ， 会 像 这 样 : 


#include "llvm/Pass.h" 

#include "llvm/IR/Function.h" 

#include "llvm/Support/raw_ostream.h" 

using namespace llvm; 

namespace { 

struct FuncBlockCount : public FunctionPass { 
static char ID; 
FuncBlockCount() : FunctionPass(ID) {} 
bool runOnFunction(Function &F) override { 

errs()<< "Function "<< F.getName()<< '\n'; 


return false; 


}; 
} 
char FuncBlockCount::ID = 0; 
static RegisterPass«FuncBlockCount» X("funcblockcount", 


"Function Block Count", false, false); 


工作 原理 


只 需要 人 徐 单 地 使 用 gmake 命 令 就 能 编译 这 个 文件 ， 然 后 在 LLVM 根 
目录 会 得 到 一 个 新 文件 FuncBlockCount.so。 这 个 动态 链接 库 文 件 能 够 


动态 加 载 到 opt 工 具 ， 然 后 在 LLVM IR 代 码 上 运行 。 至 于 如 何 加 载 并 运 
11, BIE FE e 


TRA I 


e KT Af MENE A Pass, i$ 2 Ul http://llvm.org/docs/Writing 
AnLLVMPass.html ° 


使 用 opt 工 具 运 行 目 定义 Pass 


前 一 节 编 写 的 Pass 已 经 准备 好 在 LLVM IR 上 运行 了 ， 只 需要 使 用 
opt 工 具 动 态 加 载 这 个 Pass， 即 可 识别 并 运行 。 


详细 步骤 


执行 以 下 步骤 o 


1. 在 sample.c 文 件 中 编写 C 语 言 测 试 代码 ， 之 后 会 被 编译 为 .1 文 
件 : 


$ vi sample.c 
int foo(int n, int m) { 


int sum = 0; 


int cO; 


for (cO = n; cO > 0; cO--) { 
int ci- m; 
for (; c1» 0; ci--) { 


sum += CO > C1? 1:90; 


j 


return sum; 


2. 使 用 以 下 命令 将 C 语 言 测试 代码 编译 为 LLVM IR: 


$ clang -00 -S -emit-llvm sample.c -o sample.11 


会 生成 sample.]] 文件 。 
3. 使 用 opt 工 具 运 行 新 的 Pass， 如 下 : 


$ opt -load (path to .so file)/FuncBlockCount.so 
funcblockcount 


sample.11 


输出 如 下 : 


Function foo 


工作 原理 


从 之 前 的 代码 可 以 看 到 ，opt 命 令 行 工 具 会 动态 加 载 动态 链接 库 ， 
以 运行 Pass。 之 后 Pass 会 授 历 每 一 个 贸 数 ， 输 出 其 鸟 数 名 ， 但 未 对 IR 
做 任何 改动 。 在 下 一 节 会 展示 在 新 的 Pass 中 如 何 对 IR 做 进一步 增强 。 


TRA I 


。 关于 多 种 类 型 的 Pas 类 , Bw eB Ml 
http://llvm.org/docs/WritingAnLLVM Pass.html#pass-classes-and- 


requirements ° 


在 新 的 Pass 中 调用 其 他 Pass 


一 个 Pass 可 能 会 需要 其 他 Pass 以 得 到 分 析 数据 、 启 发 或 类 似 信息 
来 指导 自己 的 行为 。 例 如 ， 一 个 Pass 可 能 会 需要 一 些 对 内 存 依赖 性 的 
分 析 ， 或 者 需要 修改 过 的 IR。 我 们 在 前 一 节 编写 的 Pass 仅 仅 是 输出 了 
画 数 名 ， 本 节 我 们 会 对 其 增强 ， 使 它 能 够 对 循环 中 的 基本 块 进行 计 
数 ， 以 介绍 如 何 使 用 其 他 Pass 的 结 


准备 工作 


前 一 市 编 写 的 代码 基本 不 变 ， 不 过 还 需要 男 外 做 一 些 改动 以 进行 
增强 ， 使 得 它 能 够 在 这 个 IR 中 对 基本 块 进行 计数 ， 在 下 面 将 进行 展 


详细 步骤 


getAnalysis 函 数 用 于 指定 要 使 用 的 其 他 Pass。 


1. 既然 我 们 实现 的 Pass 要 对 基本 块 进行 计数 ， 那 么 它 束 需要 函数 
的 循环 信息 ， 可 以 通过 getAnalysis 循环 函数 指定 : 


LoopInfo ELT = &getAnalysis«LoopInfoWrapperPass» 


().getLoopinfo(); 


2. 上 面 的 代码 会 调用 LoopInfoPass 来 得 到 关于 循环 的 信息 ， 通 过 
对 这 个 对 象 的 迷 代 即 可 得 到 基本 块 信息 .: 


unsigned num Blocks = 0; 
Loop::block iterator bb; 
for(bb = L->block begin(); bb != L->block_end();++bb) 
num Blocks--; 
errs()«« "Loop level "«« nest«« " has "«« num Blocks 


<< " blocks\n"; 


3. DA ETUR SIEN DEE, ATH FIERE EL E ERI 
外 层 循 环 中 的 基本 块 计数 。 如 果 想 要 得 到 内 层 循 环 的 信息 ， 还 需要 冲 
归 地 调用 getSubLoops 函 数 进行 计数 。 把 逻辑 放 在 单独 的 钞 数 中 ， 然 后 
递归 地 调用 会 更 有 意义 : 


void countBlocksInLoop(Loop *L, unsigned nest) ( 

unsigned num Blocks - 0; 

Loop::block iterator bb; 

for(bb = L->block begin(); bb !- L->block_end();++bb) 

num Blocks--*; 

errs()«« "Loop level "«« nest«« " has "«« num Blocks 
<< " blocks\n"; 

std: :vector<Loop*> subLoops = L->getSubLoops(); 

Loop::iterator j, f; 

for (j = subLoops.begin(), f = subLoops.end(); j !- f; 
++] ) 


countBlocksInLoop(*j, nest + 1); 


virtual bool runOnFunction(Function &F) ( 
LoopInfo *LI = &getAnalysis<LoopInfoWrapperPass>(). 
getLoopInfo(); 
errs()«« "Function "<< F.getName() + "^n"; 
for (Loop *L : *LI) 
countBlocksInLoop(L, 0); 


return false; 


工作 原理 


我 们 在 样 例 程序 上 运行 新 修改 的 Pass， 执 行 以 下 步骤 来 修改 并 运 
行 样 例 程序 。 


1. 打开 sample.c 文 件 ， 用 以 下 代码 来 替换 其 内 容 : 


int main(int argc, char **argv) { 
int i, j, k, t = 0; 
for(i = 0; i< 10; i++) { 
for(j = 0; j< 10; j++) { 
for(k = 0; k< 10; k++) ( 


ttt; 


, 


for(j = 0; j< 10; j++) 1 


for(i = 0; i< 20; i++) { 


for(j = 0; j< 20; j++) 1 


for(j = 0; j< 20; j++) 1 


return t; 


2. 用 Clang 将 其 转换 成 .1 文件 : 


$ clang -00 -S -emit-llvm sample.c -0 sample.11 


3. 在 样 例 代码 上 运行 新 的 Pass: 


$ opt -load (path to .so file)/FuncBlockCount.so 
funcblockcount 


sample.11 


输出 如 下 : 


Function main 

Loop level 0 has 11 blocks 
Loop level 1 has 3 blocks 
Loop level 1 has 3 blocks 
Loop level has 15 blocks 
Loop level has 7 blocks 
Loop level has 3 blocks 


Loop level has 3 blocks 


更 多 内 容 


LLVMfBJPass/E BAS he tt T Passie, DRE RENSE EI] 
的 Pass 使 用 了 哪些 分 析 和 优化 ， 如 下 : 


$ opt -load (path to .so file)/FuncBlockCount.so 
funcblockcount sample.ll - 


disable-output -debug-pass-Structure 


使 用 Pass 管 理 央 注册 Pass 


到 目前 为 止 ， 每 个 Pass 都 是 独立 运行 的 动态 链接 库 文 件 ， 而 opt 工 
具 是 由 一 系列 这 样 的 Pass 通 过 Pass 管 理 器 注册 组 成 的 ， 作 为 LLVM 的 一 
hp 分 。 本 万 将 展示 用 Pass 管 理 絮 注册 Pass 的 详细 步 又 。 


准备 工作 


PassManager 个 类 会 接受 一 个 Pass 列 表 ， 并 旦 保证 它们 的 先决 条 件 
正确 设置 ， 之 后 会 对 它们 进行 调度 以 保证 高 效 运行 。Pass 管 理 器 为 了 
减少 一 系列 Pass 的 执行 时 间 ， 主 要 负责 以 下 两 个 任务 。 


I yN 


e 尽 可 能 在 多 个 Pass 间 共享 分 析 数 据 ， 避 免 重 复 计 算 分 析 结 果 。 
。 使 得 Pass 执 行 流 水 线 化 ， 一 系列 Pass 一 起 流水 线 化 运行 ， 以 达到 
缓存 和 内 存 使 用 行为 友好 。 


详细 步骤 


执行 以 下 步骤 使 用 Pass 管 理 器 注册 Pass e 


1. 在 FuncBlockCount.cpp 文 件 中 定义 DEBUG_TYPE 安 ， 指 定 调试 
名 称 : 


#define DEBUG TYPE "func-block-count" 


2. 在 FuncBlockCount 结 构 体 中 指定 getAnalysisUsage 语 法 : 


void getAnalysisUsage(AnalysisUsage &AU) const override { 


AU.addRequired«LoopInfoWrapperPass»(); 


3. 初始 化 安 ， 以 初始 化 新 的 Pass: 


INITIALIZE PASS BEGIN(FuncBlockCount, " funcblockcount ", 
"Function Block Count", false, false) 


INITIALIZE PASS DEPENDENCY(LoopInfoWrapperPass) 


INITIALIZE PASS END(FuncBlockCount, "funcblockcount", 
"Function Block Count", false, false) 
Pass *llvm::createFuncBlockCountPass() ( return new 


FuncBlockCount(); } 


4. T£include/Ilvm/LinkAllPasses.h X. {4 FP X% JU createFuncBlockCount 
Pass EK 2X: 


(void) llvm:: createFuncBlockCountPass (); 


5. 在 include/llvmy/Transforms/Scalarh 文 件 中 添加 声明 : 


Pass * createFuncBlockCountPass (); 


6. (EL PassB JT] ta EN 2: 


FuncBlockCount() : FunctionPass(ID) {initializeFuncBlockCount 


Pass(*PassRegistry::getPassRegistry());) 


7. f£ lib/Transforms/Scalar/Scalar.cpp 文件 中 增加 初始 化 Pass 的 条 
H: 


initializeFuncBlockCountPass (Registry); 


8. TEinclude/llvm/InitializePassed.h X- £F BSN KAAL F5 HH : 


void initializeFuncBlockCountPass (Registry); 


9. TE lib/Transforms/Scalar/CMakeLists.text X. {EE FF 7/3 HT FuncBlock- 
Count.cpp 文 件 名 : 


FuncBlockCount.cpp 


工作 原理 


参照 第 1 章 的 方法 ， 使 用 cmake 命 令 编译 LLVM Pass ss E 
opt 命 令 行 工具 的 Pass 流 水 线 中 包含 新 加 入 的 Pass。 同 样 ， 这 个 Pass 也 


$ opt -funcblockcount sample.11 


PRAAN 


e 关于 如 何人 简单 地 在 Pass 管理 


LoopInstSimplify Pass 


器 中 添加 Pass， 请 参见 


http://lIvm.org/viewvc/llvm- 


project/llvm/trunk/lib/Transforms/Scalar/LoopInstSimplify.cpp ° 


实现 一 个 分 析 Pass 


4) WrPasstESC ESAME PXIRBJTS DU P $e BE T IRBJ SE AME, m1 
这 些 信息 可 以 被 其 他 的 分 析 Pass 使 用 来 计算 其 结果 。 并 且 ， 只 要 一 个 
分 析 Pass 计 算出 了 结果 ， 这 个 计算 结果 可 以 被 不 同 的 Pass 多 次 使 用 ， 
直到 一 个 Pass 改 变 了 这 个 IR。 本 节 将 实现 一 个 分 析 Pass， 来 计算 并 输 


出 一 个 函数 中 使 用 的 操作 码 的 数量 。 


准备 工作 


首先 ， 为 我 们 的 Pass 编 写 测试 代码 : 


$ cat testcode.c 
int func(int a, int b)( 
int sum - 0; 
int iter; 
for (iter = 0; iter< a; iter++) { 
int iter1; 
for (iter1 = 0; iteri< b; iter1++) { 


sum += iter > iter1? 1: 0; 


j 


return sum; 


将 它 转换 为 .bc 文件 ， 作 为 分 析 Pass 的 输入 : 


$ clang -c -emit-llvm testcode.c -o testcode.bc 


IK fa fEllvm root. dir/lib/Transforms/opcodeCounter H =x 6| & £ & 
Pass 源 码 的 文件 ， 这 里 的 opcodeCounter 是 我 们 创建 的 目录 ， 之 后 Pass 
的 源码 都 会 存在 这 里 。 


参照 之 前 的 做 法 ， 为 这 个 目录 创建 一 个 Makefile 并 做 必要 修改 ， 
以 编译 Pass © 


详细 步骤 


现在 开始 编写 分 析 Pass 的 源码 。 
1. 包含 必要 的 头 文件 ， 并 使 用 lvm 命 名 空间 : 


#define DEBUG TYPE "opcodeCounter" 
include "llvm/Pass.h" 

#include "llvm/IR/Function.h" 
include "llvm/Support/raw ostream.h" 
#include<map> 


using namespace llvm; 


2. 为 Pass 定 义 CountOpcode 结 构 体 : 


namespace ( 


struct CountOpcode: public FunctionPass ( 


3. 在 结构 体 中 创建 必要 的 数据 结构 ， 来 计算 操作 码 的 数量 ， 以 及 
表示 Pass 的 Pass ID: 


std::map« std::string, int» opcodeCounter; 
static char ID; 


CountOpcode () : FunctionPass(ID) {} 


4. TE Bii TELE SCRI ZETA PR HP. IE Pass HJ AAS HAN, SE 
runOnFunction ži IH : 
virtual bool runOnFunction (Function &F) { 


llvm::outs() << "Function " << F.getName () << '\n'; 


for ( Function::iterator bb - F.begin(), e = F.end(); bb != 


e; ++bb) ( 
for ( BasicBlock::iterator i - bb->begin(), e - bb-»end(); 
i!'- e; ++i) { 
if (opcodeCounter.find(i->getOpcodeName()) == 
opcodeCounter.end()) { 
opcodeCounter[i->getOpcodeName()] = 1; 
) else { 


opcodeCounter[i->getOpcodeName()] += 1; 


j 


std::map« std::string, int»::iterator i - 
opcodeCounter.begin(); 
std::map« std::string, int»::iterator e - 
opcodeCounter.end(); 
while (i !=e) { 
llvm::outs() << i->first << ": " << i->second << "^n"; 
i++; 
} 
llvm::outs() << "An"; 
opcodeCounter.clear(); 
return false; 
} 
}; 
} 


5. 编写 代码 注册 Pass: 


char CountOpcode::ID = 0; 
static RegisterPass«CountOpcode» X("opcodeCounter", "Count 


number of opcode in a functions"); 
6. 用 make 或 者 cmake 命 令 编 译 Pass © 


7. 使 用 opt 工 具 在 测试 代码 上 运行 Pass， 得 到 函数 中 使 用 的 操作 码 


的 数量 信息 : 


$ opt -load path-to-build-folder/lib/LLVMCountopcodes.so 
-opcodeCounter -disable-output testcode.bc 

Function func 

add: 3 

alloca: 5 

br: 8 

icmp: 3 

load: 10 

ret: 1 

select: 1 


store: 8 


工作 原理 


这 个 分 析 Pass 在 函数 层级 上 运行 ， 作 用 于 程序 中 的 每 一 个 函数 。 
因此 ， 我 们 在 声明 CountOpcodes : public FunctionPass 结 构 的 时 候 继承 
T FunctionPassE 2X ° 


opcodeCounter EX 2 (RAF ER BCH 56 H3 BA] EA PREIS HETE o ZEB TA 
Hyfor(/BEArB, ki Aa Ea PPR FES: 


for (Function::iterator bb = F.begin(), e = F.end(); bb != e; 
++bb) { 

for (BasicBlock::iterator i = bb->begin(), e = bb->end(); i != 
e; 


++i) { 


B LZ forf Mo D) EL ITE HIE AKE, TRO EBENE BARF 


的 每 一 条 指令 。 


第 1 层 for 人 循环 中 的 代码 实际 收集 操作 码 并 且 计 数 ， 而 循环 之 后 的 
一 段 代 码 则 输出 结果 。 由 于 我 们 使 用 map 来 存储 结果 ， 所 以 只 需要 在 
函数 中 通 历 这 个 map， 人 然后 输出 每 一 对 操作 码 的 名 字 以 及 计数 。 


由 于 函数 没有 修改 测试 代码 中 的 任何 东西 ， 所 以 返回 false。 最 后 
两 行 代码 用 于 以 给 定 的 名 字 注 册 Pass 以 便 在 opt 工 具 中 可 以 使 用 这 个 


Pass ? 


Bn, EWA EAT, MERENS EUER BU AS FR] BS BRTE 389 LH 
和 使 用 次 数 了 。 


实现 一 个 别名 分 析 Pass 


站 针 别 名 分 析 (Alias Analysis) 用 于 判断 是 否 存 在 两 个 指针 指 癌 
同一 个 地 方 ， 换 言 之 ， 是 否 存在 一 个 地 址 被 不 同 的 指针 使 用 。 基 于 别 
名 分 析 的 结果 ， 可 以 进行 进一步 优化 ， 例 如 公共 子 表 达 式 消除 。 有 许 
多 方法 和 算法 可 以 进行 别名 分 析 。 本 节 不 会 讲述 这 些 算法 ， 而 是 会 
示 LLVM 如 何 为 你 提供 一 些 基础 设施 ， 以 编写 我 们 自己 的 别名 分 析 
Pass。 本 六 会 编写 别名 分 析 的 Pass 来 展示 如 何 开 始 编 写 这 样 的 Pass， 不 
会 使 用 特定 的 算法 ， 而 是 在 每 个 分 析 的 实例 中 返回 MustAlias 作 为 输 
出 o 


准备 工作 


首先 编写 测试 代码 以 作为 别名 分 析 的 输入 ， 在 这 里 我 们 采用 前 面 
章节 的 testcode.c 文 件 作 为 测试 代码 。 


当然 ， 你 还 需要 修改 Makefile ， 为 llvnylib/Analysis/Analysis.cpp、 
llvm/ — include/llvm/InitializePasses.h ^ . |lvm/include/llvm/LinkAIl 
Passes.h ` Ilvm/include/llvm/Analysis/Passes.h "F ^J Pass 4 J 4& H LAY Ht 
Pass, fEllvm source dir/lib/Analysis/ H ®II & Everything MustAlias.cpp 
文件 ， 其 中 包含 Pass 的 源码 。 


详细 步骤 


HITA FEIR ° 


1. 引 入 必要 的 头 文件 ， 使 用 lvm 命 名 空间 : 


#include "llvm/Pass.h" 

#include "llvm/Analysis/AliasAnalysis.h" 
#include "llvm/IR/DataLayout.h" 

include "llvm/IR/LLVMContext.h" 
#include "llvm/IR/Module.h" 


using namespace llvm; 


2. 通过 继承 ImmutablePass 和 AliasAnalysis 类 为 Pass 创 建 一 个 结构 : 


namespace { 
struct EverythingMustAlias : public ImmutablePass, public 


AliasAnalysis { 


3. PH BAH SCHE NAA ER AC: 


static char ID; 
EverythingMustAlias() : ImmutablePass(ID) {} 
initializeEverythingMustAliasPass(*PassRegistry: :getPassRegist 


ry());} 
4. S HilgetAdjustedAnalysisPointerER Zi: 


void *getAdjustedAnalysisPointer(const void *ID) override ( 
if (ID -- &AliasAnalysis::ID) 
return (AliasAnalysis*)this; 


return this; 


5. 3 XlllinitializePass KEN (344, Pass: 


bool doInitialization(Module &M) override { 
DL = &M.getDataLayout(); 


return true; 


} 
6. 实现 alias 函 数 : 


void *getAdjustedAnalysisPointer(const void *ID) override ( 
if (ID -- &AliasAnalysis::ID) 
return (AliasAnalysis*)this; 


return this; 


7. 注册 Pass: 


char EverythingMustAlias::ID = 0; 
INITIALIZE AG PASS(EverythingMustAlias,  AliasAnalysis,  "must- 
aa", 

"Everything Alias (always returns 'must' alias)", true, true, 


true) 


ImmutablePass *llvm::createEverythingMustAliasPass() { return 
new 


EverythingMustAlias(); } 


8. 使 用 make 或 者 cmake 命 令 编 译 Pass。 


9. 在 编译 Pass 得 到 .so 文件 之 后 ， 使 用 该 文件 执行 测试 代码 : 


$ opt-must-aa -aa-eval -disable-output testcode.bc 
===== Alias Analysis Evaluator Report ===== 

10 Total Alias Queries Performed 

0 no alias responses (0.0%) 

O may alias responses (0.0%) 

O partial alias responses (0.0%) 

10 must alias responses (100.0%) 

Alias Analysis Evaluator Pointer Alias Summary: 
09?6/ 0?6/ 0?6/ 10 096 


Alias Analysis Mod/Ref Evaluator Summary: no mod/ref! 


工作 原理 


AliasAnalysis 类 定义 了 多 种 别名 分 析 实 现 所 文 持 的 接口 ， 它 导 
了 AliasResult 和 ModRefResult 枚 举 类 型 ， 分 别 表示 alias 和 modref 查 询 的 
ZE FA o 


alias 方 法 用 于 检查 两 个 内 存 对 象 是 否 指 问 相 同 的 地 址 。 它 以 两 个 
内 存 对 象 为 输入 ， 相 应 地 返回 MustAlias、PartialAlias、MayAlias 或 者 
NoAlias ° 


getModRefInfo 方 法 返回 一 条 指令 的 执行 是 否 读 取 或 者 修改 内 存 位 
置 的 信息 。 前 面 样 例 中 的 Pass 对 于 每 两 个 指针 都 会 返回 MustAlias， 正 


如 我 们 所 实现 的 一 样 。 前 面 的 类 继承 ImmutablePasses 类 ， 适 合 我 们 的 
Pass， 这 是 一 个 很 基本 的 Pass。 而 继承 AliasAnalysisPass， 则 因为 它 为 
我 们 的 实现 提供 了 接口 。 


getAdjustedAnalysisPointer KA F] (E Ze ak RI P — T SEE) TEE 
LIB Pass * WREDE, ENS BSBRN MHA, MEET Re 
以 提供 特定 Pass 的 信息 。 


initializePass 函 数 则 用 于 初始 化 舍 有 InitializeAliasAnalysis 方 法 的 
Pass， 这 个 函数 会 包含 别名 分 析 的 具体 实现 。 


getAnalysisUsage 方 法 用 于 声明 此 Pass 对 其 他 Pass 的 依赖 ， 这 通过 
显 式 地 调用 AliasAnalysis::getAnalysisUsage 方 法 来 实现 。 


alias 方 法 之 后 的 代码 用 作 注 册 Pass。 最 后 测试 的 时 候 ， 我 们 得 到 
了 10 个 MustAlias 啊 应 (100.0%) 的 结果 ， 正 如 我 们 在 Pass 中 所 实现 
的 。 


e 天 于 LLVM 中 别名 分 析 的 详细 信息 ， 请 人 参见 
http://llvm.org/docs/AliasAnalysis.html © 


使 用 其 他 分 析 Pass 


本 太 将 简要 介绍 LLVM 提 供 的 其 他 分 析 Pass， 它 们 可 用 作 分 析 基 本 
块 、 范 数 、 模 块 等 信息 。 除 此 之 外 ， 还 将 展示 LLVM 已 经 实现 的 Pass， 


DA hp fep f FA xx £6 Pass R vt 1T R fü a oo {EZS IMM SP 
Pass， 并 非 所 有 。 


准备 工作 


首先 在 testcodel.c 文 件 中 编写 测试 代码 ， 用 作 分 析 : 


$ cat testcode1.c 

void func() { 

int i; 

char C[2]; 

char A[10]; 

for(i = 0; i != 10; ++i) { 
((short*)c)[0] = A[i]; 
C[1] = A[9-i]; 


使 用 以 下 命令 行 ， 把 C 语 言 代码 转换 成 bitcode 格 式 : 


$ clang -c -emit-llvm testcode1.c -o testcode1.bc 


详细 步骤 


S 


一 部 


执行 以 下 步骤 使 用 其 他 分 析 Pass。 


1. 使 用 -aa-eval 命 令 行 选项 调用 opt 工 具 ， 执 行 别名 分 析 评 佑 器 


Pass: 


$ opt -aa-eval -disable-output testcode1.bc 

===== Alias Analysis Evaluator Report ----- 

36 Total Alias Queries Performed 

0 no alias responses (0.0%) 

36 may alias responses (100.0%) 

O partial alias responses (0.0%) 

© must alias responses (0.0%) 

Alias Analysis Evaluator Pointer Alias Summary: 0%/100%/0%/0% 


Alias Analysis Mod/Ref Evaluator Summary: no mod/ref! 


2. 使 用 -print-dom-info 命 令 行 选 项 调用 opt 工 具 ， 打 印 文 配 者 树 


(dominator-tree) 


Inorder Dominator Tree: 
[1] %0 {0,9} 
[2] %1 {1,8} 
[3] %4 {2,5} 
[4] %19 {3,4} 
[3] %22 {6,7} 


3. [it Fl -count-aa fp 11383 Ui opt LA, X — {Pass [rl E: fti Pass 
的 别名 分 析 查 询 进 行 计数 : 


$ opt -count-aa -basicaa -licm -disable-output testcode1.bc 


No alias: [4B] 132* %i, [1B] i8* %7 

No alias: [4B] i32* %i, [2B] i16* %12 

No alias: [1B] i8* %7, [2B] i16* %12 

No alias: [4B] 132* %i, [1B] 18* %16 
Partial alias: [1B] i8* %7, [1B] 18* %16 
No alias: [2B] i16* %12, [1B] i8* %16 
Partial alias: [1B] i8* %7, [1B] 18* %16 
No alias: [4B] 132* %i, [1B] i8* %18 

No alias: [1B] i8* %18, [1B] i8* %7 

No alias: [1B] i8* 918, [1B] i8* %16 
Partial alias: [2B] i16* %12, [1B] i8* %18 
Partial alias: [2B] i16* %12, [1B] i8* %18 


===== Alias Analysis Counter Report ----- 
Analysis counted: 

12 Total Alias Queries Performed 

8 no alias responses (66%) 

0 may alias responses (0%) 

4 partial alias responses (33%) 


© must alias responses (0%) 


Alias Analysis Counter Summary: 66%/0%/33%/0% 


0 Total Mod/Ref Queries Performed 


4. 使 用 -print-alias-sets 命 令 行 选项 调用 opt 工 具 ， 和 输出 程序 中 的 别名 


集合 


Lp 


$ opt-basicaa -print-alias-sets -disable-output testcode1.bc 
Alias Set Tracker: 3 alias sets for 5 pointer values. 
AliasSet[0x336b120, 1] must alias, Mod/Ref Pointers: (i32* 
9i, 4) 
AliasSet[0x336b1cO, 2] may alias, Ref Pointers: (i8* 
%7, 1), (i8* %16, 1) 
AliasSet[0x338b670, 2] may alias, Mod Pointers: (i16* 


%12, 2), (i8* %18, 1) 


工作 原理 


在 第 1 个 实例 中 ， 我 们 使 用 -aa-eval 选 项 ，opt 工 具 执行 了 别名 分 析 
评估 旭 Pass， 并 在 屏幕 上 输出 分 析 结 有 果 。 它 吉 历 函数 中 的 每 对 指针 ， 
以 查询 它们 是 否 互 为 别名 。 


在 第 2 个 实例 中 ， 使 用 -print-dom-info 选 项 ， 执 行 输 出 支配 者 树 的 
Pass， 获 得 支配 者 树 的 信息 。 


在 第 3 个 实例 中 ， 执 行 opt -count-aa -basicaa -licm 命 令 。count-aa 命 
令 选 项 表示 由 licmPass 对 basicaa Pass 的 查询 次 数 。 这 个 信息 通过 opt 工 
具 的 别名 分 析 计数 (count alias analysis) Pass 来 获得 ° 


最 后 一 个 实例 是 输出 程序 中 的 别名 集合 ， 使 用 - print-alias-sets 命 令 
行 选 项 ， 它 输出 了 用 basicaa Pass 分 析 得 到 的 别名 集合 。 


TRA I 


关于 更 多 这 H c d 及 的 Pass , d$ $2 W 


http://llvm.org/docs/Passes.htmlztanalysis-passes ° 


[1] 原文 为 overload， 译 者 根据 代码 ， 纠 正 为 禾 写 。 译 者 注 


BSE EHL 


KE in A NIER o 


编写 无 用 代码 消除 Pass 
编写 内 联 转换 Pass 
编写 内 存 优 化 Pass 
合并 LLVM IR 
循环 的 转换 与 优化 
表达 式 重 组 

IR 问 量化 

其 他 优化 Pass 


概述 


在 第 4 章 中 ， 我 们 看 到 了 如 何在 LLYM 中 编写 一 个 Pass， 也 以 别名 
分 析 为 例 ， 展 示 了 如 何 编写 一 些 分 析 Pass。 这 些 Pass 只 是 读 入 源码 ， 
然后 给 我 们 一 些 关 于 代码 的 信息 。 在 本 章 中 ， 我 们 会 更 进一步 编写 转 
换 Pass 对 源码 做 实际 修改 ， 以 党 试 对 代码 进行 优化 ， 达 到 更 高 的 执行 
效率 。 前 两 节 会 介绍 如 何 实 现 转 换 Pass， 以 及 它 如 何 改 变 代码 。 在 这 
之 后 ， 我 们 会 看 到 如 何 对 Pass 的 代码 进行 改变 ， 以 增强 Pass 的 行为 。 


编写 无 用 代码 消除 Pass 


本 节 介 绍 如 何 对 程序 进行 无 用 代码 消除 优化 (dead code 
elimination) 。 无 用 代码 消除 意味 着 任何 对 源 程序 输出 的 执行 结果 没 
影响 的 代码 都 会 被 消除 。 执 行 这 一 优化 的 主要 原因 是 缩小 程序 大 
小 ， 无 用 代码 被 阻止 执行 ， 进 而 提高 代码 质量 ， 使 得 代码 更 容易 调 
试 ， 以 及 减少 程序 运行 时 间 。 本 节 展 示 一 个 无 用 代码 消除 的 变种 ， 被 
称 为 入 侵 式 无 用 代码 消除 ， 它 百 先 假定 所 有 的 代码 都 是 无 用 的 ， 然 后 
证 明 它 们 是 有 用 的 。 我 们 会 亲自 实现 这 个 Pass， 看 看 我 们 需要 如 何 修 
改 ， 让 它 能 够 像 LLVM 代 码 库 里 lib/Transforms/Scalar 目 录 下 的 其 他 Pass 
一 样 运行 。 


准备 工作 


为 了 展示 无 用 代码 消除 的 实现 ， 我 们 需要 一 段 测 试 代码 ， 在 此 之 
上 运行 入 侵 式 无 用 代码 消除 Pass: 


$ cat testcode .11 
declare i32 Qstrlen(i8*) readonly nounwind 
define void Qtest() { 

call 132 @strlen( 18* null ) 


ret void 


TEMAS EF test ECH T strlen ax, ANA ETE BOR [n] 
值 。 因 此 我 们 的 Pass 认 为 对 strlen 函 数 的 调用 是 无 用 的 。 


文件 中 包含 llvm/InitializePasses.h 关 文件， 在 llvm 命 名 空间 中 添加 
我 们 即将 编写 的 Pass 的 条 目 : 


namespace llvm ( 


void initializeMYADCEPass(PassRegistry&); // 添 加 这 一 行 


Æ include/llvm-c/scalar.h/Transform/scalar.h 文件 下 添加 Pass 的 条 
H: 


void LLVMAddMYAggressiveDCEPass(LLVMPassManagerRef PM); 


在 include/llvm/Transform/scalar.h 文 件 中 ， 在 llvm 命 名 空间 添加 Pass 
HIE: 


FunctionPass *createMYAggressiveDCEPass(); 


在 lib/Transforms/Scalarscalarcpp 文 件 的 两 个 地 方 添加 Pass 的 条 
目 ， 并 在 void Ilvm::initializeScalarOpts(PassRegistry &Registry) 函数 中 
添加 如 下 代码 : 


initializeMergedLoadStoreMotionPass(Registry); // 已 存在 于 文件 


initializeMYADCEPass(Registry); // 增 加 此 行 


initializeNaryReassociatePass(Registry); // 已 存在 于 文件 


void LLVMAddMemCpyOptPass(LLVMPassManagerRef PM) ( 


unwrap(PM) ->add(createMemCpyOptPass()); 


j 


// 增加 以 下 代码 
void LLVMAddMYAggressiveDCEPass(LLVMPassManagerRef PM) ( 


unwrap(PM) -2»add(createMYAggressiveDCEPass()); 


j 


void LLVMAddPartiallyInlineLibCallsPass(LLVMPassManagerRef 


{ 


unwrap(PM) ->add(createPartiallyInlineLibCallsPass()); 


详细 步骤 


现在 编写 Pass 的 代码 。 


1. 引 入 必要 的 头 文 件 : 


#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 


#include 


"Livm/Transforms/Scalar.h" 
"llvm/ADT/DepthFirstIterator.h" 
"llvm/ADT/SmallPtrSet.h" 
"Livm/ADT/SmallVector.h" 
"llvm/ADT/Statistic.h" 
"llvm/IR/BasicBlock.h" 
"llvm/IR/CFG.h" 
"llvm/IR/InstlIterator.h" 
"llvm/IR/Instructions.h" 


"llvm/IR/IntrinsicInst.h" 


PM) 


Zinclude "llvm/Pass.h" 


using namespace llvm; 


2. 声明 Pass 的 结构 体 : 


namespace { 
struct MYADCE : public FunctionPass { 
static char ID; // Pass identification, replacement for 
typeid 
MYADCE() : FunctionPass(ID) { 
initializeMYADCEPass(*PassRegistry::getPassRegistry()); 
} 
bool runOnFunction(Function& F) override; 
void getAnalysisUsage(AnalysisUsage& AU) const override { 


AU.setPreservesCFG(); 


3. 初始 化 Pass 和 其 ID: 


char MYADCE::ID = 0; 
INITIALIZE PASS(MYADCE, "myadce", "My Aggressive Dead Code 


Elimination", false, false) 


4. 在 runOnFunction 函 数 中 实现 实际 的 Pass: 


bool MYADCE::runOnFunction(Function& F) ( 


if (skipOptnoneFunction(F)) 


return false; 


SmallPtrSet«Instruction*, 128» Alive; 


SmallVector«Instruction*, 128» Worklist; 


// 收集 已 知 的 根 指令 
for (Instruction &I : inst range(F)) { 
if (isa«TerminatorInst»(I) || isa«DbgInfoIntrinsic»(I) 
|| isacLandingPadInst»(I) || I.mayHaveSideEffects()) { 
Alive.insert(&I); 
Worklist.push back(&I); 
} 
} 
// 向 后 传播 生存 性 (liveness) 
while (!Worklist.empty()) { 


Instruction *Curr - Worklist.pop back val(); 
for (Use &OI : Curr-»operands()) { 
if (Instruction *Inst = dyn cast<Instruction>(OI)) 
if (Alive.insert(Inst).second) 


Worklist.push back(Inst); 


// 在 这 个 Pass 中 ， 不 在 生存 集合 中 的 指令 被 认为 是 无 用 的 。 不 影响 控制 流 、 返 
值 ， 以 及 没 
// 有 任何 副作用 的 指令 直接 删除 


for (Instruction &I : inst range(F)) { 


El 


if (!Alive.count(&I)) { 
Worklist.push back(&I); 


I.dropAllReferences(); 


for (Instruction *&I : Worklist) { 


I->eraseFromParent(); 


return !Worklist.empty(); 


3 
j 


FunctionPass *llvm::createMYAggressiveDCEPass() ( 


return new MYADCE(); 


5. TE EZ TH A “HE LIE" BEAT Té BH Jtestcode.ll 文件 之 后 ， 


之 前 的 Pass: 


$ opt -myadce -S testcode.1l 


; ModuleID = 'testcode.11' 


; Function Attrs: nounwind readonly 


declare 132 Qstrlen(i8*) #0 


At 


ÍT 


define void Qtest() { 


ret void 


工作 原理 


在 runOnFunction 函 数 的 第 1 个 for 循 环 中 ， 这 个 Pass 首 先 会 收集 所 
有 生存 的 根 指令 列表 。 


在 while (1Worklist.empty0) 循 环 中 ， 我 们 基于 根 指令 的 活动 信息 ， 
可 以 向 后 传播 活动 信息 。 


在 接 下 来 的 for 循 环 中 ， 我 们 把 未 活动 的 指令 〈 即 无 用 的 指令 ) itl 
^ 同时 ， 我 们 检查 这 些 变 量 征 否 被 引用 。 如 采 存 在 对 这 些 变 量 的 引 
， 那 么 它们 也 是 无 用 的 ， 也 全 部 删除 。 


m m 


TEXT EIST Pass Zn RIDE SU, AH HIstrlen Ki BH TE 
被 删除 了 。 


由 于 实现 代码 已 经 加 入 了 LLVM 代 码 库 ， 版 本 号 为 234045， 所 以 
当 你 的 代码 实现 的 时 候 ， 需 要 更 新 一 些 定 义 。 在 这 个 实例 中 ， 相 应 地 
修改 一 些 代 码 。 


FDD 


关于 其 他 多 种 无 用 代码 消除 方法 ， 请 参见 
llvrylib/Transforms/Scalar 目 孙 ， 这 里 有 其 他 类 型 的 无 用 代码 消除 的 实 
F ° 


编写 内 联 转 换 Pass 


内 联 (inline) 指 的 是 在 函数 调用 处 用 函数 体 直接 进行 奉 换 ， 它 被 
证 明 能 够 有 效 提 高 程序 的 执行 速度 ， 而 是 否 内 联 函 数 则 由 编译 硕 决 
定 。 本 市 介绍 如 何 编写 一 个 位 单 的 函数 内 联 Pass 以 实现 LLVM 中 的 内 
联 。 我 们 编写 的 Pass 将 处 理 那些 用 alwaysinline 属 性 标记 的 函数 。 


准备 工作 


首先 编写 运行 Pass 的 测试 代码 。 对 lib/Transforms/IPO/IPO.cpp、 
include/llvm/InitializePasses.h ` include/llvm/Transforms/IPO.h ` 
include/llvm-c/Transforms/IPO.h 做 必要 的 修改 来 包含 接 下 来 的 Pass， 并 
且 对 makefile 做 必要 的 修改 来 包含 它 的 Pass: 


$ cat testcode.c 

define i32 Qinner1() alwaysinline { 
ret i32 1 

} 

define i32 @outeri() { 
%r = call 132 Qinneri() 


ret 132 %r 


详细 步骤 


编写 Pass 代 人 码 。 
1. 引入 必要 的 头 文件 : 


#include "llvm/Transforms/IPO.h" 
#include "llvm/ADT/SmallPtrSet.h" 
#include "llvm/Analysis/AliasAnalysis.h" 
#include "llvm/Analysis/AssumptionCache.h" 
#include "llvm/Analysis/CallGraph.h" 
#include "llvm/Analysis/InlineCost.h" 
#include "llvm/IR/CallSite.h" 

#include "llvm/IR/CallingConv.h" 
#include "llvm/IR/DataLayout.h" 

#include "llvm/IR/Instructions.h" 
#include "llvm/IR/IntrinsicInst.h" 
#include "llvm/IR/Module.h" 

#include "llvm/IR/Type.h" 


#include "ll1vm/Transforms/IPO/InlinerPass.h" 


2. 描述 Pass 的 类 : 


namespace ( 


class MyInliner : public Inliner ( 


InlineCostAnalysis "ICA; 


public: 

MyInliner() : Inliner(ID, -2000000000, 
/*InsertLifetime*/ true), 

ICA(nullptr) { 

initializeMyInlinerPass(*PassRegistry::getPassRegistry()); 
} 
MyInliner(bool InsertLifetime) 

Inliner(ID, -2000000000, InsertLifetime), ICA(nullptr) { 


initializeMyInlinerPass(*PassRegistry::getPassRegistry()); 


static char ID; 


InlineCost getInlineCost(CallSite CS) override; 


void getAnalysisUsage(AnalysisUsage &AU) const override; 


bool runOnSCC(CallGraphSCC &SCC) override; 


using llvm::Pass::doFinalization; 
bool doFinalization(CallGraph &CG) override ( 
return removeDeadFunctions(CG, /*AlwaysInlineOnly-*/ 


true); 


3. 初始 化 Pass， 增 加 依赖 : 


char MyInliner::ID = 0; 
INITIALIZE PASS BEGIN(MyInliner, "my-inline", 

"Inliner for always inline functions", false, 
false) 
INITIALIZE AG DEPENDENCY(AliasAnalysis) 
INITIALIZE PASS DEPENDENCY ( AssumptionTracker ) 
INITIALIZE PASS DEPENDENCY (CallGraphWrapperPass) 
INITIALIZE PASS DEPENDENCY(InlineCostAnalysis) 
INITIALIZE PASS END(MyInliner, "my-inline", 

"Inliner for always inline functions", false, 


false) 


Pass *llvm::createMyInlinerPass() { return new 


MyInliner(); ) 


Pass *llvm::createMynlinerPass(bool InsertLifetime) { 


return new MyInliner(InsertLifetime); 


4. 实现 获得 内 联 开 销 的 函数 : 


InlineCost MyInliner::getInlineCost(CallSite CS) { 
Function *Callee - CS.getCalledFunction(); 
if (Callee && !Callee->isDeclaration() && 
CS.hasFnAttr(Attribute::AlwaysInline) && 
ICA->isInlineViable(*Callee) ) 


return InlineCost::getAlways(); 


return InlineCost::getNever(); 


5. 编写 其 他 辅助 方法 : 


bool MyInliner::runOnSCC(CallGraphSCC &SCC) ( 
ICA =0020&getAnalysis<InlineCostAnalysis>( ); 


return Inliner::runOnSCC(SCC); 


void MyInliner::getAnalysisUsage(AnalysisUsage &AU) const { 
AU.addRequired«InlineCostAnalysis»?(); 


Inliner::getAnalysisUsage(AU); 


6. 编译 Pass， 然 后 在 之 前 的 测试 代码 上 运行 : 


$ opt -inline-threshold=0 -always-inline -S test.11 
; ModuleID = 'test.11' 


; Function Attrs: alwaysinline 
define 132 @inner1() #0 { 
ret 132 1 
} 
define 132 Qouteri() { 


ret 132 1 


工作 原理 


我 们 已 编写 的 Pass 会 作用 于 那些 标记 了 alwaysinline 属 性 的 函数 ， 
TEA ERAI SE 2 f Pass ALEX ° 


这 里 起 作用 的 主要 函数 是 InlineCost getInlineCost(CallSite CS), © 
是 inliner.cpp 文 件 中 的 函数 ， 需 要 在 这 里 被 覆 写 。 因 此 ， 在 计算 得 到 内 


联 开 销 的 基础 上 ， 我 们 决定 是 否 内 联 一 个 函数 。 而 内 联 处 理工 作 的 真 
正 实现 ， 则 位 于 inliner.cpp 文 件 。 


在 这 个 实例 中 ， 对 于 标记 了 alwaysinline 属 性 的 范 数 我 们 返回 
InlineCost::get Always(); 对 于 其 他 的 ， 则 返回 InlineCost::getNever()。 
用 这 种 方式 ， 我 们 能 够 为 简单 实例 实现 内 联 。 如果 你 想 更 进一步 了 解 
其 他 的 内 联 变种 及 关于 内 联 决 策 的 更 多 知识 ， 你 可 以 查看 inlining.cpp 
文件 。 


当 对 测试 代码 运行 Pass 的 时 候 ， 我 们 可 以 看 到 对 inner1 函 数 的 调用 
被 它 真 实 的 函数 体 替换 了 。 


编写 内 存 优 化 Pass 


本 节 简 要 介绍 处 理 内 存 优化 的 转换 Pass 。 


准备 工作 


详细 步骤 


1. 首先 为 memcpy 优 化 Pass 编 写 测试 代码 : 


$ cat memcopytest.11 


@cst = internal constant [3 x 132] [132 -1, 132 -1, i32 -1], 


align 4 


declare void @llvm.memcpy.p0i8.p0i8.164(i8* nocapture, i8* 
nocapture, i64, 132, i1) nounwind 


declare void Qfoo(i32*) nounwind 


define void Qtesti1() nounwind { 

%arr = alloca [3 x 132], align 4 

%arr_ i8 = bitcast [3 x 132]* %arr to i8* 

call void @llvm.memcpy.p0i8.p0i8.164(18* %arr i8, i8* bitcast 
([3 x 132]* @cst to i8*), i64 12, i32 4, i1 false) 

%arraydecay = getelementptr inbounds [3 x 132], [3 x 132]* 
%arr, i64 0, i64 0 

call void Qfoo(i32* %arraydecay) nounwind 


ret void 


2. 在 之 前 的 测试 实例 上 运行 memcpyoptPass: 


$ opt -memcpyopt -S memcopytest.11 


; ModuleID = ' memcopytest.11' 


@cst = internal constant [3 x 132] [132 -1, 132 -1, i32 -1], 


align 4 


; Function Attrs: nounwind 
declare void @llvm.memcpy.p0i8.p0i8.164(i8* nocapture, i8* 


nocapture readonly, i64, i32, i1) #0 


; Function Attrs: nounwind 


declare void Qfoo(i32*) #0 


; Function Attrs: nounwind 
define void @test1i() #0 { 

%arr = alloca [3 x 132], align 4 

%arr_ i8 = bitcast [3 x 132]* %arr to i8* 

call void Qllvm.memset.p018.164(i18* %arr i18, i8 -1, 164 12, 
132 4, i1 false) 

%arraydecay = getelementptr inbounds [3 x 132]* %arr, i64 0, 
i64 0 

call void Qfoo(i32* %arraydecay) #0 


ret void 


; Function Attrs: nounwind 
declare void Qllvm.memset.p018.i164(i8* nocapture, 18, 164, 


i32, i1) #0 


attributes #0 - { nounwind } 


工作 原理 


MemcpyoptPass 会 尽 可 能 消除 memcpy 调 用 ， 或 者 把 它们 转 为 其 他 
调用 。 


考虑 如 下 memcpy 调 用 : 


call void @llvm.memcpy.p0i8.p0i8.164(18* %arr i8, i8* bitcast 
([3 x 


132]* @cst to i8*), i64 12, 132 4, i1 false). 


在 前 面 的 测试 实例 中 ， 这 个 Pass 会 将 上 面 的 调用 转 为 memset 调 
用 : 


call void @llvm.memset.p0i8.164(18* %arr i8, i8 -1, 164 12, i32 
4, i1 
false) 


如 果 我 们 去 看 这 个 Pass 的 源码 ， 会 发 现 这 个 转换 是 
Ilvm/lib/Transforms/ Scalar/MemCpyOptimizer.cpp X 件 的 
tryMergingIntoMemset 函 数 市 来 的 。 


tryMergingIntoMemset 函 数 在 扫描 内 存 转移 指令 的 时 候 会 查找 一 些 
其 他 的 模式 以 进行 折 著 。 它 会 在 邻近 的 内 存 中 寻找 仓库 ， 看 是 否 有 连 
续 的 1， 如 果 有 的 话 会 把 它们 一 起 合并 到 memset 中 。 


processMemsSet 函 数 会 查找 与 当前 memset 邻 近 的 memset， 这 有 助 
于 我 们 拓宽 memset 调 用 以 创建 一 个 更 大 的 仓库 。 


PRAAN 


关于 各 种 内 存 优 化 Pass 类 型 的 详细 信息 ， 请 参见 


http://llvm.org/docs/Passes. html#memcpyopt-memcpy-optimization ° 


合并 LLVM IR 


本 下 介绍 在 LLVM 中 如 何 合并 指令 。 指 令 合 并 指 的 是 把 一 系列 指 
令 奉 换 为 一 些 更 加 高 效 的 指令 ， 而 得 到 相同 的 结 采 ， 以 此 来 减少 CPU 
周期 。 本 节 展 示 修 改 LLVM 代 码 来 合并 特定 的 指令 


准备 工作 


为 了 测试 我 们 的 实现 ， 我 们 编写 测试 代码 ， 以 确认 我 们 的 实现 是 
人 否 正 确 地 合并 了 指令 


define i32 @test19(i32 %x, i32 %y, i32 %z) { 
9xori = xor i32 %y, %Z 
960r = or i32 %x, %xor1 
%xor2 = xor i32 96x, %Z 
%xor3 = xor i32 %xor2, %y 
9i res = xor i32 %or, %xor3 


ret i32 %res 


ÀJ 
详细 步骤 

1. fT F lib/Transforms/InstCombine/InstCombineAndOrXor.cpp X. 
件 。 


2. 在 InstCombiner::visitXor(BinaryOperator &D 函 数 中 ， 修 改 计 分 文 
并 添加 以 下 代码 : if (OpOl && Op1D) 


if (match(OpOI, m Or(m Xor(m Value(B), m Value(C)), 
m Value(A))) 
&& 
match(OpiI, m Xor( m Xor(m Specific(A), 
m Specific(C)), m Specific(B)))) { 
return BinaryOperator::CreateAnd(A, Builder- 


>CreateXor(B,C)); } 


3. 重 狐 构 建 LLVM， 使 得 opt 工 具 能 够 使 用 这 个 新 的 功能 ， 并 用 如 
下 的 方式 运行 测试 实例 : 


Opt -instcombine -S testcode.ll 
define i32 @test19(i32 %x, i32 Xy, i32 %z) { 
%1 = xor i32 %y, %z 

%res = and i32 %1, %X 


ret 132 %res 


工作 原理 


本 万 我们 给 指令 合并 的 文件 添加 了 一 些 代 码 ， 来 处 理 包含 与 、 
或 、 异 或 运算 符 的 转换 。 


为 匹配 (A|(B^ C)) A(AA^AC)^B) 形 式 的 模式 增加 代码 ， 然 后 把 它 J 


约 成 A&(B^C) o 
if(match(Op0I,m_Or(m_Xor(m_Value(B),m_Value(C)),m_Value(A)))&& 
match(Op1I,m Xor(m Xor(m Specific(A),m Specific (C)), 


m_Specific(B))7) 语 句 查 找 与 本 段 开头 所 到 的 那个 模式 相似 的 模式 。 


return BinaryOperator::CreateAnd(A, Builder->CreateXor(B,C)); i |=| 
构建 新 的 指令 后 的 归 约 值 ， 即 替换 原来 的 匹配 代码 。 


在 对 测试 代码 运行 instcombine Pass 之 后 ， 可 以 得 到 归 约 后 的 结 
果 。 你 可 以 看 到 原本 的 5 个 操作 变 成 了 2 个 。 


PRAAN 


。 GHIAIA WER Wu. BANEN RENE oe SEC AI REK 
类 似 的 是 指令 简化 函数 ， 它 把 复杂 的 指令 简化 成 简单 的 指令 ， 但 
不 像 指 令 合并 那样 减少 指令 数量 。 关 于 更 多 的 细节 ， 请 参见 
lib/Transforms/InstCombine 目 未 。 


循环 的 转换 与 优化 


本 贡 将 介绍 对 循环 进行 转换 和 优化 以 得 到 更 短 的 执行 时 间 。 我 们 
主要 展示 循环 常量 提升 (Loop-Invariant Code Motion LICM) ix 
术 ， 它 如 何 运行 及 如 何 改变 代码 。 同 时 也 会 展示 一 种 相对 人 简单 的 技术 
一 一 循环 删除 ， 消 除 对 返回 值 没 有 副作用 的 普通 循环 〈 循 环 次 数 对 循 
环 返 回 值 无 影响 、 非 死 循环 ) 。 


准备 工作 


详细 步骤 


1. 编写 LICM Pass 的 测试 实例 : 


$ cat testlicm.1l 
define void @testfunc(i32 %i) { 
;<label>:0 
br label %Loop 
Loop: ; preds = %Loop, %0 
%] = phi i32 [ 0, %0 ], [ %Next, %Loop | ; <i32> 
[#uses=1] 
%i2 = mul i32 %i, 17 ;<i32> [#uses=1] 
%Next = add i32 %j, %i2 ;<i32> [#uses=2] 
%cond = icmp eq i32 %Next, 0 ;<i1> [#uses=1] 
br i1 %cond, label %Out, label %Loop 


Out: ;preds - %Loop 


ret void 


2. 在 测试 代码 上 执行 LICM Pass: 


$ opt licmtest.11 -licm -S 


; ModuleID = 'licmtest.11' 


define void @testfunc(i32 %i) { 
%12 = mul i32 %i, 17 


br label %Loop 


Loop: ; preds = 

%Loop, 960 
%j = phi i32 [ 0, %0 ], [ %Next, %Loop ] 
%Next = add 132 %j, 912 
%cond = icmp eq i32 %Next, 0 


br i1 %cond, label %Out, label %Loop 


Out: ; preds = 
%Loop 


ret void 


3. 编写 循环 删除 Pass 的 测试 代码 : 


$ cat deletetest.11 
define void Qfoo(i64 %n, i64 %m) nounwind { 
entry: 


br label %bb 


bb: 
%x.0 = phi i64 [ 0, %entry ], [ %to, %bb2 ] 
%to = add i64 %x.0, 1 
%t1 = icmp slt 164 %x.0, %n 
br i1 %t1, label %bb2, label %return 
bb2: 
%t2 = icmp slt 164 %x.0, %m 
br i1 %t1, label %bb, label %return 
return: 


ret void 


4. 最 后 ， 在 测试 代码 上 执行 循环 删除 Pass: 


$ opt deletetest.11 -loop-deletion -S 


; ModuleID = "deletetest.11' 


; Function Attrs: nounwind 
define void Qfoo(i64 %n, 164 %m) #0 { 
entry: 


br label %return 
return: ; preds = 


%entry 


ret void 


attributes #0 = { nounwind } 


工作 原理 


LICM Pass 对 循环 常量 代码 进行 提升 : 它 会 把 循环 中 不 变 的 代码 提 
升 到 循环 体外 ， 或 者 是 循环 之 前 的 pre-header 块 ， 或 者 是 循环 之 后 的 
exit 块 。 


在 之 前 的 样 例 中 ，%i2 = mul i32 96i, 17 这 部 分 代码 被 移 到 循环 之 
前 ， 因 为 这 条 指令 没有 在 循环 块 中 改变 。 


而 循环 删除 Pass 会 查找 对 函数 返回 值 没有 作用 ， 并 且 迭 代 有 限 次 
数 的 非 死 循环 。 


在 测试 代码 中 ， 我 们 可 以 看 到 两 个 基本 块 pb: 和 bb2: 包 含 了 无 意义 
的 循环 。 因 为 其 中 的 循环 说 删除 了 ， 所 以 foo 函 数 直接 跳 到 返回 语句 
[fe 


对 于 循环 优化 其 实 有 很 多 其 他 的 技术 ， 例 如 loop-rotate、1loop- 
unswitch、Loop-unroll 等 。 你 可 以 目 己 尝试， 来 看 看 它们 如 何 改变 代 
f o 


表达 式 重 组 


本 和 介绍 表达 式 重 组 ， 以 及 如 何在 优化 中 委 效 。 


1. 首先 为 简单 的 表达 式 重 组 编写 测试 实例 : 


$ cat testreassociate.ll 

define i32 @test(i32 %b, 132 %a) { 
%tmp.1 = add i32 %a, 1234 
%tmp.2 = add 132 %b, %tmp.1 


%tmp.4 = xor 132 Xa, -1 


; (b+(a+1234))+-a -> b+1233 
%tmp.5 = add 132 %tmp.2, %tmp.4 


ret 132 %tmp.5 


2. 在 测试 实例 之 上 运行 重组 Pass， 查 看 已 修改 的 代码 : 


$ opt testreassociate.ll -reassociate -die -S 
define i32 Qtest(i32 %b, 132 %a) { 
%tmp.5 = add 132 %b, 1233 


ret 132 %tmp .5 


工作 原理 
重组 指 的 是 利用 代数 的 结合 律 、 交 换 律 、 分 配 律 来 对 表达 式 重 新 
安排 以 实现 其 他 的 优化 ， 例 如 常量 折 共 、LICM 等 。 


在 之 前 的 样 例 中 ， 我 们 使 用 了 逆 属 性 通过 重组 来 消除 像 "X +~X"- 
> "-1 "这 样 的 模式 。 


测试 实例 前 面 3 行 给 出 了 表达 式 (b+(a+1234)+~a。 在 这 个 表达 式 
中 ， 运 行 重组 Pass 之 后 可 以 把 a + ~a 变 为 -1， 因 此 得 到 最 终 的 返回 值 是 


b + 1234 -1- b + 1233 ° 
处 理 转 换 的 代码 是 在 lib/Transforms/Scalar/Reassociate.cpp 文 件 中 。 


如 有 果 你 查看 这 个 文件 相应 的 代码 片段 ， 你 会 发 现代 码 会 查看 操作 
数 是 否 存在 a 和 一 a: 


if (!BinaryOperator::isNeg(TheOp) && 
!BinaryOperator::isNot(TheOp)) 


continue; 


Value *X - nullptr; 


else if (BinaryOperator::isNot(TheOp)) 
X = BinaryOperator::getNotArgument ( TheOp); 


unsigned FoundX - FindInOperandList(Ops, i, X); 


如 果 在 表达 式 中 有 这 样 的 值 ， 下 面 的 代码 负责 处 理 并 插入 -1: 


if (BinaryOperator::isNot(TheOp)) { 
Value *V = Constant::getAllOnesValue(X-»getType()); 
Ops.insert(Ops.end(), ValueEntry(getRank(V), V)); 


e += 1; 


IR 问 量化 


向 量化 (Vectorization) 是 编译 器 的 一 个 重要 优化 ， 它 可 以 向 量 
化 代码 ， 在 多 个 数据 集 上 同时 执行 一 条 指令 。 如 有 果 后 端 染 构 支持 问 量 
寄存 器 ， 那 么 一 个 很 蜗 范 围 的 数据 就 能 存储 于 这 些 同 量 寄 存 絮 中 ， 而 
特殊 的 癌 量 指令 可 以 操作 这 些 寄存 侨 。 


在 LLVM 中 有 两 种 类 型 的 向 量化 ， 一 种 是 超 字 级 并 行 (Superword 
Level Parallelism SLP ) ， 另 一 种 是 循环 向 量化 ( loop 
vectorization) 。 循 环 向 量化 针对 循环 ， 而 SLP 则 把 基本 块 中 的 线性 代 
码 同 量化 。 本 市 介绍 线性 代码 如 何 被 同 量化 。 


准备 工作 


SLP 癌 量化 会 构建 一 个 目 底 同上 的 IR 表 达 式 树 ， 然 后 大 概 比 较 树 
的 节点 来 判断 是 否 存在 相似 市 点 可 以 组 合成 同 量 。 将 要 进行 修改 的 文 


件 是 lib/Transforms/Vectorize/ SLPVectorizer.cpp ° 


我 们 会 尝试 对 一 段 线性 代码 进行 癌 量 化， 例如 reture a[0] + a[1] + 
a[2] + a[3] ° 


Bi Tel IS PE (NAS HU SEGA SU zE IEF, HA] al DET UK DFS 
(深度 优先 搜索 ) 来 存储 操作 数 和 操作 符 。 


前 面 那 种 类 型 的 表达 式 的 IR 如 下 : 


define 132 Qhadd(i32* 9a) { 
entry: 
%0 = load 132* %a, align 4 


%arrayidx1 = getelementptr inbounds i32* 9a, 132 1 


%1 = load i32* %arrayidx1, align 4 

%add = add nsw i32 %0, %1 

%arrayidx2 = getelementptr inbounds i32* %a, 132 2 
%2 = load i32* %arrayidx2, align 4 

%add3 = add nsw i32 %add, 962 

%arrayidx4 = getelementptr inbounds i32* %a, 132 3 
%3 = load 132* %arrayidx4, align 4 

%add5 = add nsw i32 %add3, 963 


ret 132 %add5 


回 量 化 模型 执行 以 下 3 步 。 

1. 检查 癌 量 化 的 合法 性 。 

2. 计算 回 量 化 代码 相 比 于 标量 代码 执行 的 收益 。 

3. 如 采 前 两 个 条 件 都 满足 ， 那 么 进行 代码 的 同 量 化 。 


详细 步骤 


1. 打开 SLPVectorizer.cpp 文 件 ， 对 于 “准备 工作 ”一 展示 的 IR， 我 
们 需要 实现 一 个 新 的 函数 来 对 表达 式 树 做 DFS 志 历 : 


bool matchFlatReduction(PHINode *Phi, BinaryOperator *B, 


const DataLayout *DL) { 


if (!B) 


return false; 


if (B->getType()->isVectorTy() || 
! B-»getType( )-»isIntegerTy()) 


return false; 


ReductionOpcode = B-»getOpcode(); 

ReducedValueOpcode - 0; 

Reduxwidth = MinVecRegSize / DL-»getTypeAllocSizeInBits(B- 
>getType()); 

ReductionRoot = B; 


ReductionPHI = Phi; 


if (ReduxWidth < 4) 
return false; 
if (ReductionOpcode != Instruction: :Add) 


return false; 


SmallVector<BinaryOperator *, 32> Stack; 
ReductionOps.push_back(B); 
ReductionOpcode = B->getOpcode(); 
Stack.push_back(B); 


// S 
while (!Stack.empty()) { 


BinaryOperator *Bin - Stack.back(); 


if (Bin->getParent() !- B-»getParent()) 


return false; 


Value *OpO = Bin-»getOperand(0); 


Value *Opi = Bin->getOperand(1); 
if (!Op0->hasOneUse() || !Opi-»-hasOneUse()) 

return false; 
BinaryOperator *OpOBin = dyn cast«BinaryOperator»2(0p0); 
BinaryOperator *OpiBin = dyn cast<BinaryOperator>(Op1); 
Stack.pop back(); 


// 如 果 左 右 操作 数 都 是 二 元 操作 符 则 不 处 理 
if (OpOBin && Op1Bin) 


return false; 
// 左右 操作 数 都 不 是 二 元 操作 符 
if (!OpOBin && !OpiBin) { 


ReducedVals.push back(0p1); 
ReducedVals.push back(0p0); 


ReductionOps.push back(Bin); 


continue; 


// 一 个 操作 数 是 二 元 操作 符 ， 为 进一步 的 处 理 把 它 放 到 栈 里 。 


// 把 其 他 非 二 元 操作 符 推 入 ReducedVals 
if (OpOBin) { 


if (OpOBin->getOpcode() !- ReductionOpcode) 


return false; 
Stack.push back(OpOBin); 
ReducedVals.push back(0p1); 


ReductionOps.push back(OpOBin); 


if (Op1Bin) { 
if (Op1Bin->getOpcode() !- ReductionOpcode) 
return false; 
Stack.push back(OpiBin); 
ReducedVals.push back(0p0); 


ReductionOps.push back(OpiBin); 


} 
SmallVector<Value *, 16> Temp; 


// 把 a[3]，a[2]，a[1]，a[0] 反 转 成 a[0]，a[1]，a[2]，a[3] 
while (!ReducedVals.empty()) 
Temp.push back(ReducedVals.pop back val()); 
ReducedVals.clear(); 
for (unsigned i = ©, e = Temp.size(); i < e; ++i) 
ReducedVals.push back(Temp[i]); 


return true; 


2. YF EE [8] SIRNA, AT [8] 3 (5 XE d m dA d oo dE 
SLPVectorizer.cpp 文 件 中 ， 为 getReductionCost 函 数 增加 以 下 代码 : 


int HAddCost - INT MAX; 


DE 


a(t) 


// RRA RIB, BS 


// 水 平添 加 模式 条 件 可 以 被 建 模 为 对 子 向 量 的 洗 牌 (shuffle) 


// 例如 ，a[0]+a[1]+a[2]+a[3] 可 以 建 模 为 


// %1 = load <4 x» 960 


// %2 = shuffle %1 «2, 3, undef, 


// %3 = add «4 x» %1, %2 


// %4 = shuffle %3 «1, undef, 


// %5 = add «4 x» %3, %4 


// %6 = extractelement 965 «0» 


if (IsHAdd) { 


undef, 


TH 


undef» 


undef> 


` DM EE > SER 


unsigned VecElem = VecTy-»getVectorNumElements(); 


unsigned NumRedxLevel = Log2_32(VecElem) ; 


HAddCost = NumRedxLevel * 


(TTI->getArithmeticInstrCost(ReductionOpcode, VecTy) + 


TTI-»getShuffleCost(TargetTransformInfo:: 


SK ExtractSubvector, VecTy, VecElem / 2, VecTy)) + 


TTI-»getVectorInstrCost(Instruction::ExtractElement, 


VecTy, 0); 


3. 在 同一 个 函数 中 ， 计 算 PairwiseRdxCost 和 SplittingRdxCost 之 
后 ， 与 HAddCost 比 较 : 


VecReduxCost = HAddCost« VecReduxCost ? HAddCost 


VecReduxCost; 


4. 在 vectorizeChainsInBlock() 函数 中 调用 之 前 定义 的 matchFlat 
Reduction EHX: 


// "RAV BIRI ELP HEN 


if (Returninst *RI = dyn cast«ReturnInst»(it)) 


if (RI->getNumOperands() !- 0) 
if (BinaryOperator *BinOp - 


dyn cast«BinaryOperator»(RI-»getOperand(0))) { 


DEBUG(dbgs()«« “SLP: Found a return to vectorize.\n"); 


HorizontalReduction HorRdx; 


IsReturn - true; 


if ((HorRdx.matchFlatReduction(nullptr, BinOp, DL) && 
HorRdx.tryToReduce(R, TTI)) || tryToVectorizePair(BinOp- 
>getOperand(0), BinOp->getOperand(1), R)) { 


Changed - true; 


it = BB->begin(); 


e = BB->end(); 


continue; 


5. 定义 两 个 全 局 标记 来 记录 有 回报 的 水 平 归 约 (horizontal 


reduction) : 


static bool IsReturn = false; 


static bool IsHAdd - false;Vector 


6. 如 果 有 回报 ， 那 么 就 允许 同 量 化 小 的 树 结 构 ， 为 
isFullyVectorizableTiny Tree) EK SCHR JIS: 


if (VectorizableTree.size() == 1 && IsReturn && IsHAdd) 


return true; 


工作 原理 


在 保存 了 包含 以 上 代码 的 文件 之 后 ， 重 新 编译 LLVM 项 目 ， 在 样 
例 ITR 上 运行 opt 工 具 ， 如 下 所 述 。 


1. 打开 example.! 文件， 把 如 下 的 了 及 粘 贴 进去 : 


define i32 @hadd(i32* %a) { 
entry: 
%0 = load 132* %a, align 4 


%arrayidx1 = getelementptr inbounds i32* %a, i32 1 


%1 = load 132* %arrayidx1, align 4 

%add = add nsw 132 %0, %1 

%arrayidx2 - getelementptr inbounds i32* %a, 132 2 
%2 = load 132* %arrayidx2, align 4 

%add3 = add nsw i32 %add, %2 

%arrayidx4 = getelementptr inbounds i32* %a, 132 3 
%3 = load 132* %arrayidx4, align 4 

%add5 = add nsw i32 %add3, %3 


ret 132 %add5 


2. 在 example.ll 文 件 上 运行 opt 工 具 : 


$ opt -basicaa -slp-vectorizer -mtriple-aarch64-unknown-linux- 
gnu 


-mcpu=cortex-a57 


输出 如 下 的 向 量化 的 代码 : 


define i32 @hadd(i32* %a) { 


entry: 


%0 bitcast i32* %a to<4 x 132>* 


%1 


load<4 x i32>* %0, align 4 %rdx.shuf = shufflevector<4 


X 132» %1,<4 x i32» undef,«4 x 132><1i32 2, i32 3, 132 


undef, i32 undef> 

%bin.rdx = add<4 x i32» %1, 

%rdx.shuf %rdx.shuf1 = shufflevector<4 x i32» 
%bin.rdx, <4 x i32» undef,«4 x 132><132 1, 132 undef, i32 
undef, i32 undef> %bin.rdx2 = add<4 x i132» %bin.rdx, 
%rdx.shuf1 


%2 = extractelement<4 x 132» %bin.rdx2, i32 0 


ret 132 %2 


NEEN, RER tL f ° matchFlatReduction() EN ZA 4E RIA X 
EAT IDFSXd4UI, IER) E T ReducedVals, Pr Hadi 
TESTES T ReductionOps ° EJ J5, fEHAddCostiT BKP [8] & (4585 
A, FSS RR, DAE ER im oe WRKm, MITE 
WEKEN, BENT LESSE tryToReduce() EK EL ° 


PRAAN 


。 大 于 问 量 化 的 更 多 详细 概念 ， 请 参考 论文 Loop-Aware SLP in GCC 
， 由 Ira Rosen ` Dorit Nuzman 和 Ayal Zaks 所 著 。 


其 他 优化 Pass 


本 世人 介绍 更 多 的 一 些 变 换 Pass， 它 们 更 像 是 共用 的 Pass。 我 们 会 
分 析 strip-debug- symbols 和 prune-eh Pass ° 


准备 工作 


详细 步骤 


1. 首先 ， 编 写 strip-debug Pass 的 测试 实例 ， 它 会 把 调试 符号 从 测 
试 代 码 中 删除 : 


$ cat teststripdebug.11 
@x = common global 132 0 ; <132*> 


[#uses=0 ] 


define void @foo() nounwind readnone optsize ssp { 
entry: 
tail call void @llvm.dbg.value(metadata 132 0, i64 0, 


metadata !5, metadata !{}), !dbg !10 


ret void, !dbg !11 


declare void Qllvm.dbg.value(metadata, i64, metadata, 


metadata) nounwind readnone 


!1lvm.dbg.cu = !{!2} 
!1lvm.module.flags = !{!13} 
!llvm.dbg.sp = !{!0} 
!1lvm.dbg.lv.foo = !{!5} 
!llvm.dbg.gv = !{!8} 


!0 = !MDSubprogram(name: "foo", linkageName: "foo", line: 2, 
isLocal: false, isDefinition: true, virtualIndex: 6, 
isOptimized: true, file: !12, scope: !1, type: !3, function: 
void ()* Gfoo) 

11 = !MDFile(filename: "b.c", directory: "/tmp") 

12 = !MDCompileUnit(language: DW LANG C89, producer: "4.2.1 
(Based on Apple Inc. build 5658) (LLVM build)", isOptimized: 
true, emissionKind: 0, file: !12, enums: !4, retainedTypes: 
14) 

13 = !MDSubroutineType(types: !4) 

14 = !{null} 


15 = !MDLocalVariable(tag: DW TAG auto variable, name: "y", 


line: 3, scope: !6, file: !1, type: !7) 
!6 - distinct !MDLexicalBlock(line: 2, column: O, file: !12, 


scope: !0) 


17 = !MDBasicType(tag: DW TAG base type, name: "int", size: 


32, align: 32, encoding: DW ATE signed) 

18 = !MDGlobalVariable(name: "x", line: 1, isLocal: false, 
isDefinition: true, scope: !1, file: !1, type: !7, variable: 
132* (Xx) 

19 = 1{i32 0) 

110 = !MDLocation(line: 3, scope: !6) 

111 = !MDLocation(line: 4, scope: !6) 

112 = !MDFile(filename: "b.c", directory: "/tmp") 


113 = !(132 1, !"Debug Info Version", i32 3} 


2. -strip-debug M fT X6 M fk A opt LA, IE fF strip-debug- 


symbolsPass: 


$ opt -strip-debug teststripdebug.11-S 


; ModuleID = ' teststripdebug.11' 
@x = common global 132 0 


; Function Attrs: nounwind optsize readnone ssp 
define void Qfoo() #0 { 
entry: 


ret void 


attributes #0 - { nounwind optsize readnone ssp } 


!1lvm.module.flags = !{!0} 


10 = metadata !{i32 1, metadata !"Debug Info Version", i32 2} 


3. 编写 检查 prune-ehPass 的 测试 实例 : 


$ cat simpletest.11 


declare void @nounwind() nounwind 


define internal void Qfoo() { 
call void Qnounwind() 


ret void 


define 132 @caller() { 
invoke void Qfoo( ) 


to label %Normal unwind label %Except 


Normal: ; preds - %0 
ret 132 0 
Except: ; preds - %0 


landingpad { i8*, 132 ) personality i32 (...)* 


Q  gxx personality vO 
catch 18* null 
ret 132 1 


} 
declare 132 @ gxx personality vo(...) 


4. 通过 将 -prune-eh 命 令 行 选项 传 入 opt 工 具 运 行 Pass， 
的 异常 处 理 信息 : 


$ opt -prune-eh -S simpletest.11 


; ModuleID = 'simpletest.11' 


; Function Attrs: nounwind 


declare void @nounwind() #0 


; Function Attrs: nounwind 
define internal void Qfoo() #0 { 
call void Qnounwind() 


ret void 


; Function Attrs: nounwind 
define i32 Qcaller() #0 { 
call void Qfoo() 


br label %Normal 


删除 未 使 用 


Normal: ; preds = %0 


ret 132 0 


declare 132 Q gxx personality vo(...) 


attributes #0 = { nounwind } 


工作 原理 


在 第 一 个 实例 中 ， 我 们 运行 了 strip-debug Pass， 它 会 把 代码 中 的 
调试 信息 删除 ， 得 到 更 加 紧凑 的 代码 。 这 个 Pass 仅 仅 用 于 得 到 更 加 紧 
凑 的 代码 ， 因 为 它 能 删除 虚拟 寄存 夯 的 名 字 ， 以 及 内 部 全 局 变量 和 画 
数 的 符号 ， 使 得 源码 可 读 性 降低 并 且 增 加 了 逆 同 工程 代码 的 难度 。 


处 理 这 个 转换 的 代码 部 分 位 T 
llvm/lib/Transforms/IPO/StripSymbols.cpp 文 件 其 中 
StripDeadDebugInfo::runOnModule 函 数 负责 删除 调试 信息 。 


第 二 个 测试 是 使 用 prune-eh Pass， 删 除 未 使 用 的 异常 处 理 信 息 ， 
它 实现 一 个 过 程 间 Pass (interprocedural) 。 它 遍历 函数 调用 图 ， 如 果 
被 调 函 数 不 抛 出 异常 ， 束 把 invoke 指 令 转 为 call 指 令 ; WRK A 
抛 出 异常 ， 束 把 函数 标记 上 nounwind。 


FDD 


. X T EH f E He Pas W fe 局 


http://llvm.org/docs/Passes.html#transform-passes ° 


BOE LATA EB 


AE A NIER o 


e LLVM IR 指 令 的 生命 周期 

e 使 用 GraphViz 可 视 化 LLVM IR 控 制 流 图 
。 使 用 TableGen 摘 述 目标 平台 

e 定义 指令 集 

。 ASIN Lash faite 

e 实现 MachineInstrBuilder 类 

e 实现 MachineBasicBlock 类 

。 实现 MachineFunction 类 

。 编写 指令 选择 絮 

。 合法 化 SelectionDAG 

。 优化 SelectionDAG 

。 基 于 DAG 的 指令 选择 

。 其 于 SelectionDAG 的 指令 调度 


概述 


在 优化 LLVM IR 之 后 ， 它 需要 被 转 为 机 器 指令 才能 执行 ， 而 平台 
无 关 的 代码 生成 器 接口 则 为 从 IR 到 机 器 指令 的 转换 提供 了 一 个 抽象 
层 。 在 这 个 阶段 ，IR 被 转换 为 SelectionDAG (DAG 指 的 是 有 向 无 环 图 


) ， 之 后 多 个 阶段 会 作用 于 SelectionDAG 的 节点 。 本 章 描 述 了 平台 无 
天 的 代码 生成 过 程 中 的 几 个 重要 阶段 。 


LLVM IR 指 令 的 生命 周期 


前 面 的 章 广 中 我 们 看 到 了 高 级 语言 指令 、 声 明 、 远 辑 块 、 范 数 调 
用 、 循 环 等 如 何 被 转 为 LLVM IR， 人 然后 在 了 及 上 会 实施 各 种 优化 Pass 使 
它 达 到 最 佳 的 状态 。 生 成 的 LLVM IR 是 SSA 形 式 的 ， 它 是 抽象 的 并 且 
与 高 级 或 低级 语言 的 约束 无 天 ， 因 此 才能 运行 各 种 优化 Pass。 除 了 这 
些 平 人 台 无 关 的 优化 之 外 ， 还 有 一 些 优 化 是 平台 相关 的 ， 会 在 月 力 为 机 
右 指 令 之 后 再 运行 。 


在 得 到 优化 过 的 LLVM IR 之 后 ， 下 一 个 阶段 就 是 把 它 转 为 目标 平 
台 的 指令 了 。LLVM 通 过 SelectionDAG 来 将 IR 转 为 机 器 指令 。 在 此 过 
程 中 ， 指 令 通 过 DAG 的 节点 来 表示 ， 最 后 线性 的 IR 便 被 转 为 了 
SelectionDAG。 在 此 之 后 ，SelectionDAG 还 要 经 历 以 下 几 个 阶段 。 


由 LLVM IR 创 建 SelectionDAG ° 
SelectionDAG T? RAIE ° 

DAG 合 并 优化 。 

针对 目标 指令 的 指令 选择 。 

调度 并 发 射 机 器 指令 。 

寄存 器 分 配 一 -SSA 解 构 、 寄 存 嚣 赋值、 寄存器 淤 出 。 
A Ep Lan o 


所 有 以 上 步骤 在 LLVM 中 都 是 模块 化 的 。 


C 代 码 到 LLVM IR 


第 一 步 是 把 前 并 语言 的 样 例 转 为 LLVM IR。 样 例如 下 : 


int test (int a, int b, int c) { 


return c/(atb); 


以 上 的 C 语 言 代码 得 到 的 LLVM IR: 


define 132 @test(i32 %a, 132 %b, 132 %c) { 
%add = add nsw i32 %a, 96b 
%div = sdiv i32 %add, %c 


return i32 %div 


IR 优 化 


如 同 之 前 章节 所 描述 的 ， 之 后 IR 便 要 经 历 多 种 优化 Pass。IR 在 转 
换 阶 段 ， 要 经 历 InstCombine PassH'JInstCombiner::visitSDiv() EN 2X » II 
函数 会 调用 SimplifyS DivInstO 函 数 ， 它 会 检查 是 否 还 存在 进一步 催化 
指令 的 机 会 。 


LLVM IR 转 为 SelectionDAG 


在 IR 转 换 和 优化 之 后 ，LLVM IRIS 4 2 £8 SelectionDAG T5 A 
° Selection DAG I 4 H SelectionDAGBuilder2 ft!) @ , SelectionDAGISel 
38 if] FA SelectionDAGBuilder::visit() K žk, i D] A IR 48 SK 61] f 
SDAGNode $5 zi © SelectionDAGBuilder::visitSDiv 1 FA T Xb Fl SDiv18 
2, ES RGRISD::SDIVERFEISR EDAG SRK — 1 3THJSDNOde P 753 , 
再 创建 DAG 中 的 节点 。 


合法 化 SelectionDAG 


目前 创建 的 SelectionDAG 广 点 未 必 会 被 目标 染 构 全 部 支持 ， 因 此 
还 需要 对 DAG 市 点 做 出 一 点 修改 以 适应 目标 平台 ， 这 一 过 程 叫 作 合法 
化 (legalization) 。 在 Selection DAG 的 初始 阶段 ， 这 些 不 被 支持 的 节 
点 被 认为 是 不 合法 的 。 在 SelectionDAG 机 制 真正 为 DAG 节 点 进行 机 器 
指令 发 射 之 前 ， 这 些 不 合法 的 节点 都 会 做 一 些 转换 以 文 持 目标 平台 。 
因此 ， 合 法 化 是 代码 发 射 之 前 最 重要 的 阶段 之 一 。 


SDNode 合 法 化 包括 数据 类 型 和 操作 两 个 方面 。 目 标 平台 的 相关 信 
妃 通 过 一 个 叫 作 TargetLowering 的 接口 传递 给 平台 无 关 的 算法 ， 这 个 接 
口 由 目标 平台 实现 ， 描 述 了 LLVM IR 如何 lowering 到 合法 的 
SelectionDAG 操 作 。 例 如 ，x86 平 台 的 lowering 由 X86TargetLowering 接 
口 实现 。 在 lowering 的 过 程 中 ， 由 setOperationAction() 函 数 来 指定 ISD 
六 点 是 否 需 要 被 操作 合法 化 扩展 或 改变 。 在 此 之 后 ，SelectionDAGL 
egalize::LegalizeOp 如 采 发 现 扩展 标记 ， 束 在 setOperationAction() 调 用 
中 用 特定 参数 蔡 换 SDNode 六 上 把 。 


从 目标 平台 无 关 DAG 转 换 为 机 器 DAG 


在 完成 指令 合法 化 之 后 ，SDNode 需 要 被 转 为 MachineSDNode， 也 
就 是 转 为 目标 平台 的 机 器 指令 。 机 器 指令 由 一 个 通用 的 基于 表 的 .td 文 
件 描 述 ， 之 后 这 些 文件 通过 tablegen 工 具 转 为 .inc 文 件 ， 在 .inc 文 件 中 用 
枚 举 类 型 描述 了 目标 平台 的 寄存 器 、 指 令 集 等 信息 ， 并 且 可 以 直接 被 
C++ 代码 调用 。 指 令 选 择 的 过 程 可 以 由 SelectCode 自 动 选 择 器 完成 ， 或 
者 通过 编写 自 定 义 的 SelectionDAGISel::Select 函 数 自己 定制 。 在 这 一 步 
中 创建 的 DAG 节 点 是 MachineSDNode 节 点 ， 它 是 SDNode 的 子 类 ， 持 
有 用 来 构建 真实 机 器 指令 的 必要 信息 ， 但 仍 是 DAG 市 点 形式 。 


指令 调度 


机 器 执行 线性 指令 集 ， 而 现在 我 们 得 到 的 机 器 指令 仍 十 DAG 形 式 
的 ， 所 以 还 需要 把 DAG 转 为 线性 指令 集 ， 这 个 过 程 可 以 通过 对 DAG 进 
行 一 次 拓扑 排序 完成 。 尽 管 很 轻松 地 就 能 得 到 线性 指令 集 ， 但 它 可 能 
不 是 最 优化 的 结 末 ， 例 如 由 于 指令 依赖 、 寄 存 絮 压力 、 流 水 线 阻塞 等 
问题 ， 都 会 造成 执行 延迟 。 因 此 还 需要 对 线性 指令 集 进行 顺序 上 的 优 
化 ， 这 个 过 程 叫 作 指令 调度 。 由 于 目标 平台 有 目 己 的 寄存 亏 集 和 目 定 
义 的 指令 流水 线 ， 所 以 它们 也 提供 了 目 己 的 调度 接口 和 一 些 启发 式 算 
法 来 优化 、 加 速 代 码 。 在 计算 了 代码 的 最 佳 执行 顺序 之 后 ， 调 度 右 职 
会 发 射 机 器 基本 块 中 的 机 器 指令 ， 最 终 解构 DAG 。 


8i EE SR A] BG 


在 发 射 机 器 指令 之 后 ， 分 配 的 寄存 器 是 虚拟 寄存 器 (virtual 
register) 。 实 际 中 ， 可 以 分 配 无 限 数量 的 虚拟 寄存 器， 而 真实 机 峰 的 


寄存 闫 数量 却 是 有 限 的 。 这 些 有 限 的 寄存 需 需 要 被 有 效 分 配 。 如 采 无 
法 做 到 ， 就 会 造成 寄存 器 淤 出 出 (register spilling) ， 导 致 见 余 的 加 载 
或 存储 操作 。 这 样 也 会 造成 CPU 周 期 的 浪费 ， 不 仅 减 慢 了 执行 速度 ， 
而 且 增 加 了 内 存 占 用 。 


寄存 器 分 配 有 多 种 算法 。 在 分 配 寄 存 器 时 有 一 个 重要 的 分 析 一 一 
变量 活跃 度 和 活动 周期 的 分 析 。 如 果 两 个 变量 在 一 个 周期 内 活动 ， 即 
它们 之 前 存在 周期 冲突 ， 那 么 它们 束 不 能 分 配 到 同一 个 寄存 器 。 通 过 
分 析 活 跃 度 ， 可 以 画 出 冲突 图 (interference graph) ， 再 使 用 图 染色 算 
法 进行 寄存 器 分 配 。 不 过 图 染色 算法 的 复杂 度 是 二 次 方 的 ， 会 导致 较 
长 的 编译 时 间 。 


LLVM 采 用 了 信心 法 来 进行 寄存 句 分 配 ， 即 活动 周期 越 长 的 变量 
先 分 配 寄 存 占 。 和 生存 周 期 短 的 变量 则 填补 可 用 寄存 带 的 时 间 间 际 ， 减 
少 洲 出 权重 。 洲 出 是 由 于 没有 足够 的 寄存 右 分 配 而 发 生 的 加 载 存 储 操 
作 ， 洲 出 权重 古 洲 出 的 操作 开销 。 有 时， 活动 周期 也 会 洲 出 ， 让 变量 
能 够 容纳 于 寄存 器 当中 。 


需要 注意 的 是 ， 在 寄存 器 分 配 之 前 指令 都 是 SSA 形 式 的 ， 而 在 现 
实 世 界 中 SSA 形 式 并 不 真 的 存在 ， 因 为 不 会 存在 具有 无 限 寄存 器 的 机 
顺 。 在 一 些 染 构 类 型 中 ， 一 些 指 令 需 要 固定 寄存 器 。 


代码 发 射 


目前 为 止 ， 原 始 的 高 级 语言 已 经 翻译 为 机 邵 指 令 了 ， 下 一 步 驳 旦 
代码 发 射 。LLVM 中 代码 发 射 有 两 种 方式 ， 一 种 是 JIT， 直 接 把 代码 发 
财 到 内 存 ， 然 后 执行 ， 男 一 种 则 是 使 用 MC 框架 ， 对 所 有 的 后 端 目 标 


平台 来 说 ， 都 可 以 发 射 到 汇编 和 目标 文件 。LLVMTarget 
Machine::addPassesToEmitFile 函 数 负 责 定 义 发 射 代码 到 目标 文件 的 行 
为 序列 ， 而 具体 的 MI 到 MCInst 的 转换 是 在 AsmPrinter 接 口 的 
EmitITmnstruction 函 数 中 实现 的 。 如 果 想 发 射 目 标 文件 (或 汇编 代码 ) ， 

可 以 通过 实现 MCStreamer 接 口 来 完成 。 例 如 ， 议 态 编译 工具 llc 束 可 以 
用 来 为 目标 平台 生成 汇编 指令 。 冲 


使 用 GraphViz 可视化 LLVM IRF 
制 流 图 

LLVM IR 的 控制 流 图 可 以 通过 GraphViz 工 具 来 可 视 化 。 它 提供 了 
已 形成 节点 的 可 视 化 描述 和 已 生成 IR 中 代码 流 的 走向 。 在 LLYM 中 ， 


很 多 重要 的 数据 结构 都 是 用 图 来 表示 的 ， 因 此 当 编 写 目 定义 Pass 或 学 
习 IR 模 式 的 行为 时 理解 IR 流 是 非常 有 用 的 方式 。 


准备 工作 


1. 如 果 在 Ubuntu 安 装 graphviz， 需 要 先 添 加 ppa 仓 库 : 


$ sudo apt-add-repository ppa:dperry/ppa-graphviz-test 


2. 更 新 程序 包 仓库 : 


$ sudo apt-get update 


3. 安装 graphviz: 


$ sudo apt-get install graphviz 


如 果 你 得 到 以 下 报错 : graphviz: Depends:libgraphviz4 (>= 
2.18) ，but itis going to be installed， 请 执行 以 下 命令 : 


$ sudo apt-get remove libcdt4 


$ sudo apt-get remove libpathplan4 


然后 使 用 以 下 命令 安装 graphviz: 


$ sudo apt-get install graphviz 


详细 步骤 


1. 一 旦 IR 转 为 DAG 之 后 ， 在 之 后 的 各 个 阶段 可 以 分 别 查 看 。 创 建 
包含 以 下 代码 的 test.11 文 件 : 


$ cat test.11 

define i32 Qtest(i32 %a, 132 *b, i32 %c) { 
%add = add nsw 132 %a, %b 
%div = sdiv 132 %add, %c 


ret 132 %div 


2. 执行 以 下 命令 ， 展 示 在 构建 之 后 ， 执 行 第 1 次 优化 Pass 之 前 的 


DAG: 


$ llc -view-dag-combinei-dags test.1l 


下 图 展示 了 在 执行 第 1 个 优化 Pass 之 前 的 DAG: 


pn A 7 ~、 ~ 
FrameIndex<-1> EntryToken) [FrameIndex<-2> 
Oxa324af0 0xa309cb0 0xa324ca0 0xa324b80 0xa324dc0 
i32 PUN: JS 132 P im en, 
| Pen , 
£ 0 1 2 2 0 1 2 
| |eaa<crp4 [Pixedstack-1]> [oRD=1] load«LD4 [FixedStack-2]» [ORD-1] load<LD4 [FixedStack-3]> [ORD-1] 
0xa324c10 0xa324d30 0xa324e50 
132 | ch A i32 ch 


I 

1 132 h 

| ce a J A 
1 — / 

| 0 1 / 


M 0 
Register $EAX 
= sdiv [ORD=3] 
0xa325090 Baat 
xa. 
i32 
^ Pag 132 ) 


0 1 
CopyToReg [ORD-4] 


X86ISD: :RET FLAG [ORD-4] 
0xa3251b0 


dag-combinel input for test: 


3. 执行 以 下 命令 ， 展 示 合 法 化 之 前 的 DAG: 
$ llc -view-legalize-dags test.1l 


下 图 这 是 合法 化 阶段 之 前 的 DAG: 
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legalize input for test: 


4. 执行 以 下 命令 ， 展 示 在 执行 第 2 个 优化 Pass 之 前 的 DAG: 


$ llc -view-dag-combine2-dags test.1l 


下 图 展示 在 执行 第 2 个 优化 Pass 之 前 的 DAG: 


(TargetConstant<0> [I 
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dag-combine2 input for test: 


5. 输入 以 下 命令 ， 展 示 在 执行 指令 选择 阶段 之 前 的 DAG: 


$ llc -view-isel-dags test.ll 


下 图 展示 在 执行 指令 选择 阶段 之 前 的 DAG: 


CopyToReg [ORD=4] [IDe12] 


isel input for test: 
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6. 执行 以 下 命令 ， 展 示 在 执行 指令 调度 之 前 的 DAG: 


$ llc -view-sched-dags test.ll 


下 图 十 在 执行 指令 调度 之 前 的 DAG: 
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En) 
mas scheduler input for test: 


7. 执行 以 下 命令 ， 展 示 指 令 调 度 器 的 依赖 图 : 
$ llc -view-sunit-dags test.1l 


PERES Aas RRA 


SU(3): MOV32rm«Mem:LD4 [FixedStack-1] (align=16)> [ORD-1] [ID=3] 
0xb770eb0 


SU(2): ADD32rm«Mem:LDA[FixedStack-2]» [ORD=2] [ID=2] 
0xb770de0 


SU(1): CopyToReg [ORD=3] [ID=1] 
CDQ [ORD=3] [ID=1] 
IDIV32m [ORD=3] [ID=1] 
CopyFromReg [ORD=3] [ID=1] 


0xb770d10 


SU(0): CopyToReg [ORD=4] [ID=0] 
RETL [ORD=4] [ID=0] 


0xb770c40 


Scheduling-Units Graph for sunit-drag.test: 


注意 在 合法 化 阶段 前 后 DAG 中 的 区 别 。 由 于 x86 目 标 平台 不 文 持 
sdiv 世 点 ， 仅 文 持 sdivrem 指 令 ， 所 以 DAG 中 的 sdiv 节 点 被 转换 为 
sdivrem 世 点 。 在 这 种 情况 下 ， 对 x86 目 标 平台 来 说 sdiv 指 令 是 不 合法 
的 。 在 合法 化 阶段 将 其 转换 为 sdivrem 指 令 ， 被 x86 目 标 平台 文 持 了 。 


同样 ， 注 意 在 指令 选择 (Sel) 阶段 前 后 的 DAG 也 有 区 别 。 像 
Load 这 样 的 平台 无 关 的 抽象 指令 被 转 为 MOV32rm 机 器 代码 (从 内 存 移 
动 32 位 数据 到 寄存 器 ) 。 因 此 指令 选择 阶段 也 是 相当 重要 的 一 个 阶 


段 ， 之 后 的 章节 会 描述 。 


观察 DAG 的 调度 单元 。 每 个 单元 被 连接 在 一 起 ， 它 们 之 间 存 在 依 
赖 。 对 于 调度 算法 来 说 ， 这 些 依赖 信息 则 非常 重要 。 例 如 ， 在 前 面 的 
例子 中 ， 调 度 单元 0 (SUO) 依赖 调度 单元 1 (SUI) ， 所 以 SU0 中 的 指 
令 不 能 在 SU1 的 指令 之 前 被 调度 。 同 样 ，SU1 依 赖 SU2，SU2 依 赖 
SU3 ° 


FDD 


。 天 于 在 debug 模式 下 查看 这 些 图 的 更 多 信息 ， 请 参见 


http://llvm.org/docs/ProgrammersManual.html#viewing-graphs-while- 


debugging-code ° 


使 用 TableGen 描 述 目 标 平台 


目标 架构 可 以 用 寄存 器 集合 、 指 令 集 等 形式 来 描述 。 手 动 来 编写 
这 些 信 息 是 单调 乏味 的 ， 为 了 降低 后 端 开 发 者 描述 目标 平台 的 难度 ， 
LLVM 及 用 TableGen 工 具 以 及 摘 述 式 的 语言 一 一 *.td 文 件 来 描述 目标 平 
台 。 而 *.tqd 文 件 可 以 转 为 enum 类 型 、DAG 模 式 匹 配 函 数 、 指 令 编码 解 
码 函 数 ， 因 此 编码 时 可 以 在 C++ 文件 中 调用 。 


为 了 在 日 标 描述 的 .td 文中 定义 寄存 器 和 寄存 器 集 合 ，tablegen 将 .td 
文件 转 为 ,inc 文件 ， 可 以 在 .cpp 文 件 中 用 节 nclude 语 法 来 引入 ， 从 而 引 
用 其 中 的 寄存 器 。 


准备 工作 


假定 我 们 的 目标 平台 有 4 个 通用 寄存 器 ，r0~T3， 一 个 栈 指针 寄存 
器 sp， 一 个 链接 寄存 器 1。 这 些 信 息 可 以 在 SAMPLERegisterInfo.td 文 件 
中 指定 ， 并 且 TableGen 工 具 提 供 了 Register 类 ， 通 过 继承 可 以 指定 其 他 
Way as © 


详细 步骤 


1. 在 lib/Target 创 建 SAMPLE 目 录 : 


$ mkdir llvm root directory/lib/Target/SAMPLE 


2. 在 SAMPLE 目 录 下 创建 SAMPLERegisterInfo.td 文 件 : 


$ cd llvm root directory/lib/Target/SAMPLE 


$ vi SAMPLERegisterInfo.td 


3. 定义 硬件 编码 、 命 名 空间 、 寄 存 器 ， 以 及 寄存 天 类 : 


class SAMPLEReg«bits«16» Enc, string n» : Register<n> { 
let HWEncoding - Enc; 


let Namespace - "SAMPLE"; 


foreach i = 0-3 in { 
def R#i : R<i, "r"#i >; 
j 
def SP : SAMPLEReg<13, "Sp">; 
def LR : SAMPLEReg<14, "lr'»; 


def GRRegs : RegisterClass<"SAMPLE", [132], 32, 


(add RO, R1, R2, R3, SP)»; 


工作 原理 


TableGen 工 具 会 把 这 个 .td 文件 处 理 成 .inc 文 件 ， 其 中 寄存 器 用 
enum 形 式 表示 ， 进 而 可 以 在 .cpp 文 件 代 人 码 中 调用 。 这 些 .inc 文 件 会 在 构 
建 LLVM 项 目的 时 候 创建 。 


ARA I 


«XT ERR (Axs) 中 定义 寄存 器 的 更 多 细节 ， 请 参见 
llvm source code/lib/Target/X86/X86RegisterInfo.td 文 件 。 


定义 指令 集 


根据 架构 特性 的 不 同 ， 染 构 的 指令 集 也 会 不 同 。 本 市 介绍 如 何 害 
义 目标 染 构 的 指令 集 。 


准备 工作 


指令 目标 描述 文件 会 定义 3 个 内 容 : 操作 数 、 汇 编 字 符 串 、 指 令 格 
式 。 指 令 集 的 说 明文 件 中 包含 一 系列 的 定义 、 输 出 、 人 使用、 输入。 这 
其 中 会 有 不 同 的 操作 数 类 ， 例 如 ， 寄 存 嚣 类、 立即 数 (immediate) 
类 ， 或 者 更 复杂 的 register+imm 操 作 数 ? 


xX RR TDi add STEL, EDS SEE SR (EI BRIE 
数 ，2 个 输入 ，1 个 输出 。 


详细 步骤 


1. 在 lib/Target/SAMPLE 目 录 创 建新 的 SAMPLEInstrIinfo.td 文 件 : 


$ vi SAMPLEInstrInfo.td 


2. 指定 两 个 寄存 器 操作 数 之 间 add 指 令 的 操作 数 、 汇 编 字 符 串 ， 以 
及 指令 格式 : 


def ADDrr : InstSAMPLE<(outs GRRegs:$dst), 
(ins GRRegs:$srci, GRRegs:$src2), 
"add $dst, $srci, $src2", 


[(set i32:$dst, (add i32:$srcí1, i32:$src2))]»; 


工作 原理 


add 寄 存 姻 指令 指定 $dst 作 为 结果 控 作 数 ， 其 属于 通用 寄存 器 类 型 
类 ; $src1 和 $src2 输 入 是 两 个 输入 操作 数 ， 它 们 都 属于 通用 寄存 器 类 |; 
日 令 的 汇编 字符 串 格 式 为 add $dst, $src1, $src2， 是 32 位 整 型 类 型 。 


因此 ， 对 两 个 寄存 器 执行 add 指 令 产 生 的 汇编 码 如 下 : 


add rO, ro, ri 


XX IL AES Fe FO Ar rd PEED, ERAF TOS IE 
38 o 


FDD 


。 关于 高 级 架构 (例如 x86) 的 各 种 类 型 指令 集 的 详细 信息 ， 请 参见 
lib/Target/X86/X86InstrInfo.td 文 件 。 

。 天 于 具体 如 何 定 义 平 台 相 关 的 信息 ， 在 第 8 章 “ 实 现 LLVM 后 端 ” 会 
有 介绍 。 一 些 概念 会 有 重复 ， 但 是 前 面 的 章节 只 是 简略 颍 视 了 一 
下 目标 架构 的 摘 述 方法 ， 算 是 接 下 来 章 市 的 一 个 预告 。 


SDN Lae EET le 


LLVM IREE AR, EHEC ZEA (basic block) 组 成 ， 而 基本 
块 由 指令 组 成 。 下 一 个 逻辑 步骤 就 是 把 由 抽象 块 的 内 容 转 为 指定 机 器 
的 区 块 ， 换 言 之 束 是 将 LLVM IR 转 为 指定 机 器 的 MachineFunction、 
MachineBasicBlock、MachineInstr 实 例 。 这 种 表示 形式 以 最 抽象 的 形式 
包含 了 指令 一 一 操作 码 及 一 系列 的 操作 数 。 


详细 步骤 


现在 要 将 LLVM IRZS SEAL as ita, Bl MachineInstr & HJ 3c 
fil o AEN FIL a tE SSE RRA Ze, EH— T BRFSS BRE 
数组 成 ， 而 操作 码 仅 仅 只 是 无 符号 整数 (unsigned int) ， 只 能 被 指定 
的 后 端 理解 。 


我 们 来 看 看 MachineInstr.cpp 文 件 中 定义 的 几 个 重要 函数 。 


MachineInstr 构 造 画 数 如 下 : 


MachineInstr::Machinelnstr(MachineFunction &MF, const 
MCInstrDesc 
&tid, const DebugLoc dl, bool NoImp) 
MCID(&tid), Parent(nullptr), Operands(nullptr), 

NumOperands(0), 

Flags(0), AsmPrinterFlags(0), 

NumMemRefs(0), MemRefs(nullptr), debugLoc(dl) { 
// 为 预期 数量 的 操作 数 预 留 空间 

if (unsigned NumOps = MCID->getNumOperands() + 


MCID->getNumImplicitDefs() + MCID->getNumImplicitUses()) { 
CapOperands = OperandCapacity::get(NumOps); 


Operands = MF.allocateOperandArray(CapOperands); 


if (!NoImp) 


addiImplicitDefUseOperands(MF); 


这 个 构造 函数 负责 创建 MachineInstr 类 的 对 象 ， 并 且 增 加 了 隐 式 操 
作 数 。MCInstrDesc 类 指定 了 操作 数 的 数量 ， 因 此 这 个 构造 函数 会 为 操 
作 数 预 留 一 定 的 空间 。 


一 种 重要 的 函数 是 addOperand， 顾 名 思 义 ， 它 为 指令 增加 了 指 
定 的 操作 数 。 如 果 是 隐 式 的 操作 数 ， 则 增加 到 探 作 数列 表 来 尾 ; 如果 
是 显 式 的 操作 数 ， 则 增加 到 显 式 操 作 数 列表 的 末尾 : 


void MachineInstr::addOperand(MachineFunction &MF, const 


MachineOperand &Op) { 


assert(MCID && "Cannot add operands before providing an instr 
descriptor"); 
if (&Op >= Operands && &Op < Operands + NumOperands) { 
MachineOperand CopyOp(0p); 
return addOperand(MF, CopyOp); 
} 
unsigned OpNo = getNumOperands(); 
bool isImpReg = Op.isReg() && Op.isImplicit(); 
if (!isImpReg && !isInlineAsm()) { 
while (OpNo && Operands[OpNo-1].isReg() && Operands[OpNo- 
1]. 
isImplicit()) (1 
- -OpNo; 
assert(!Operands[OpNo].isTied() && "Cannot move tied 


operands"); 


} 


#ifndef NDEBUG 
bool isMetaDataOp - Op.getType() == 
MachineOperand::MO Metadata; 
assert((isImpReg || Op.isRegMask() || MCID->isVariadic() || 
OpNo < MCID->getNumOperands() || isMetaDataOp) && 
"Trying to add an operand to a machine instr that is 
already done!"); 


Zendif 


MachineRegisterInfo *MRI - getRegInfo(); 
OperandCapacity OldCap - CapOperands; 


MachineOperand *OldOperands - Operands; 


if (!OldOperands || OldCap.getSize() == getNumOperands()) { 


CapOperands =  OldOperands ?  OldCap.getNext() 


OldCap.get(1); 
Operands = MF.allocateOperandArray(CapOperands); 
if (OpNo) 
moveOperands(Operands, OldOperands, OpNo, MRI); 
} 
if (OpNo != NumOperands) 
moveOperands(Operands + OpNo + 1, OldOperands 
NumOperands - OpNo, 
MRI); 
++NumOperands ; 
if (OldOperands !- Operands && OldOperands) 
MF.deallocateOperandArray(OldCap, OldOperands); 
MachineOperand *NewMO = new (Operands + OpNo) 
MachineOperand(0p); 
NewMO->ParentMI = this; 
if (NewMO->isReg()) { 
NewMO->Contents.Reg.Prev = nullptr; 
NewMO->TiedTo = 0; 
if (MRI) 
MRI ->addRegOperandTouUseList (NewMO) ; 
if (!isImpReg) { 


if (NewMO->isUse()) { 


+ OpNo, 


int Defldx = MCID->getOperandConstraint(OpNo, 
MCOI::TIED TO); 
if (DefIdx !- -1) 


tieOperands(DefIdx, OpNo); 


if (MCID- 
>getOperandConstraint(OpHo,MCOI: :EARLY CLOBBER) !- -1) 


NewMO-»setIsEarlyClobber(true); 


目标 染 构 也 可 能 存在 内 存 操 作 数 (内 存 地 址 ) ， 为 了 加 入 内 存 操 
VEEL, ZE X addMemOprandsQ EN Ži: 


void MachineInstr::addMemOperand(MachineFunction &MF, 
MachineMemOperand *MO) { 

mmo iterator OldMemRefs - MemRefs; 

unsigned OldNumMemRefs - NumMemRefs; 

unsigned NewNum = NumMemRefs + 1; 

mmo iterator NewMemRefs = MF.allocateMemRefsArray(NewNum) ; 

std::copy(OldMemRefs, OldMemRefs * OldNumMemRefs, 

NewMemRefs); 

NewMemRefs[NewNum - 1] = MO; 


setMemRefs(NewMemRefs, NewMemRefs + NewNum); 


setMemRefs() KAN 1 E MachineInstr MemRefs 列 表 的 主要 方法 。 


工作 原理 


MachineInstr 类 有 一 个 MCInstrDesc 类 型 的 MCID 成 员 来 描述 指令 ， 


— ^^ uint8t 类 型 的 标识 成 员 ， 一 个 内 存 引 用 成 员 
(mmo_iteratorMemRefs) ， 一 了 std::vector<MachineOperand> 操 作 数 


的 癌 量 成 员 。 至 于 成 员 函 数 ，MachineInstr 类 提供 了 : 


。 用 于 信息 查询 的 get*s* 和 set** 函 数 的 基本 集合 。 例 如 getOpcode0 ` 
get Num- Operands() © 

整体 相关 操作 。 例 如 isInsideBundle0 ° 

检查 指令 是 否 具 有 指定 属性 。 例 如 isVariadicO) ^ isReturn() ^ 
isCall)5$ ° 

机 器 指令 修改 。 例 如 eraseFromParent()。 

寄存 器 相关 操作 。 例 如 ubstituteRegister()、addRegisterKilledO) 等 。 
机 器 指令 创建 方法 。 例 如 addOperand()、setDesc() 等 。 


需要 注意 的 是 ， 虽 然 MachineInstr 类 提供 了 创建 机 器 指令 的 方法 ， 
名 为 BuildMIO 的 专用 有 函数 ， 基 于 MachineInstrBuilder 类 来 说 更 加 方 
便 。 


实现 MachineInstrBuilder 类 


MachineInstrBuilder 类 提供 了 BuildMIO 函 数 ， 用 于 创建 机 器 指令 。 


详细 步骤 


TE x HIL 28 dS m BY DL BAHA LB ef BuildMI KA 8]$€ , EF 
include/llvm/Code Gen/MachineInstrBuilder.h XË ° 


例如 ， 你 可 以 在 代码 片段 中 使 用 BuildMI 函 数 实现 以 下 目的 。 


1. 创建 一 条 指令 DestReg = mov 42 〈 在 x86 汇 编码 中 用 mov 
DestReg,42 表 示 ) : 


MachineInstr *MI - BuildMI(X86::MOV32ri, 1, 


DestReg).addImm(42); 


2. 创建 同样 的 指令 ， 但 是 把 它 放置 于 基本 块 的 最 后 : 


MachineBasicBlock &MBB = 


BuildMI(MBB, X86::MOV32ri, 1, DestReg).addImm(42); 
3. 还 是 这 条 指令 ， 但 是 把 它 放 置 于 指定 的 迭代 器 之 前 : 


MachineBasicBlock::iterator MBBI = 


BuildMI(MBB, MBBI, X86::MOV32ri, 1, DestReg).addImm(42) 


4. 创建 一 个 目 循环 分 文 指令 : 


BuildMI(MBB, X86::JNE, 1).addMBB(&MBB); 


工作 原理 


BuildMI0 函 数 需 要 指定 机 器 指令 的 操作 数 数量 ， 以 实现 高 效 的 内 
存 分 配 ， 同 时 也 需要 指定 操作 数 是 值 还 是 变量 。 


实现 MachineBasicBlock 类 


与 LLVM IR 中 的 基本 块 相似 ，MachineBasicBlock 类 也 是 由 一 系列 
的 顺序 机 颖 指令 组 成 的 ， 事 实 上 大 多 数 情 况 下 LLVM IR 的 基本 块 都 是 
可 以 映射 到 MachineBasicBlock 类 的 。 但 是 也 存在 一 些 例外 ， 有 了 时候 一 
个 LLVM IR 3& AX ER & TROY S € ^ MachineBasicBlock X 。 
MachineBasicBlock 2 $i [Ht T getBasicBlock()7; 1E , 3k E E B BAIR 
基本 块 。 


详细 步骤 


执行 以 下 步 又 添加 机 辟 码 基本 块 。 
1. getBasicBlock 方 法 返回 当前 的 基本 块 : 


const Bas0069cBlock *getBasicBlock() 


const ( return BB; } 


2. ARA HES A MA jk, DJ f dno KAL, EMULE 


vector: 


std::vector«MachineBasicBlock *> Predecessors; 


std::vector«MachineBasicBlock *> Successors; 


3. insert EK Zt n] LATER A n i ALERTE A : 


MachineBasicBlock::insert(instr iterator I, MachineInstr *MI) 
{ 
assert(!MI->isBundledwithPred() && !MI->isBundledwithSucc() && 
"Cannot 


insert instruction with bundle flags"); 


if (I != instr_end() && I->isBundledwithPred()){ 
MI->setFlag(MachineInstr::BundledPred) ; 


MI-»setFlag(MachineInstr::BundledSucc); 


return Insts.insert(I, MI); 


4. SplitCriticalEdge() EK 24 S TE li Alo F R op EI 38 XE AY Jes WE DC 
E, WWE KR, SR, ARA BET BRA VE LX El null e 3x 
EX ACER PrLiveVariables ^ MachineDominatorTree ` MachineLoopInfo2S: 


MachineDominatorTree ` MachineLoopInfo®: 
MachineBasicBlock * 
MachineBasicBlock::SplitCriticalEdge(MachineBasicBlock 


*Succ, Pass *P) { 


此 函数 的 实现 位 于 lib/CodeGen/MachineBasicBlock.cpp 文 件 中 。 


工作 原理 


如 之 前 所 列举 的 ，MachineBasicBlock 类 的 接口 定义 由 不 同类 型 的 
典型 函数 组 成 。 它 记载 了 许多 机 器 指令 ， 例 如 typedef 
ilist<MachineInstr> 指令 、Insts 指 令 ， 以 及 原始 的 LLVM 基本 块 。 它 提 
供 了 如 下 方法 。 


。 其 本 块 信息 查询 ， 例 如 getBasicBlock()、setHasAddressTaken()。 
。 基本 块 修改 ， 例 如 moveBefore()、moveAfter()、addSuccessor()。 
。 指令 修改 ， 例 如 push_back()、insertAfter() 等 。 


TRA I 


e X T MachineBasicBlock 类 Hj i£ ZH fs A, i 
WL Aib/CodeGen/Machine- BasicBlock.cpp X 4# ° 


实现 MachineFunction 类 


与 LLVM IR 的 FunctionBlock 类 相似 ，MachineFunction 类 也 包含 
一 系列 的 MachineBasicBlock 类 。MachineFunction 类 的 信息 会 映射 到 
LLVM IRE, (EASES aR BIA o RAE ARS RZ, 


MachineFunction 类 还 & & 了  MachineConstantPool ^ 


MachineFrameInfo ` MachineFunctionInfo ` Machine- RegisterInfoZs © 


详细 步骤 


在 MachineFunction 类 中 定义 了 许多 执行 特定 任务 的 函数 ， 也 有 许 
多 记录 信息 的 类 对 象 成 员 ， 如 下 。 


。 RegInfo 记 录 画 数 中 使 用 的 寄存 屁 信 息 
MachineRegisterInfo *RegInfo; 

e MachineFrameInfo 记 录 栈 上 分 配 的 对 象 : 
MachineFrameInfo *FrameInfo; 

。 ConstantPoolid it (spill) 到 内 存 的 常量 : 
MachineConstantPool *ConstantPool; 

。 JumpTableInfo 记 录 switch 指 令 的 跳 转 表 : 
MachineJumpTableInfo *JumpTableInfo; 

e 函数 中 的 基本 块 列表 : 


typedef ilist«MachineBasicBlock» BasicBlockListType; 


BasicBlockListType BasicBlocks; 


。 getFunction KÄORE] 4 Bil f Las £3 3€ zR B JLLV MESA: 


const Function *getFunction() const { return Fn; } 


e CreateMachineInstr47 4c #4 Machinelnstr22: 


MachineInstr *CreateMachineInstr(const MCInstrDesc &MCID, 
DebugLoc DL, 


bool NoImp = false); 


工作 原理 


MachineFunction 类 主要 是 保存 MachineBasicBlock 对 象 的 列表 
( typedef ilist<MachineBasicBLock> BasicBlockListType; 
BasicBlockListType BasicBlocks;) ， 为 检索 机 器 函数 和 修改 基本 块 成 
员 中 的 对 象 定义 提供 了 多 个 方法 。 还 需要 着 重 注意 的 一 点 是 ， 
MachineFunction 类 还 为 函数 中 的 基本 块 维 护 了 一 个 控制 流 图 (control 
flow graph——CFG) 。 这 个 控制 流 图 为 许多 优化 和 分 析 提 供 了 重要 
的 控制 流 信息 。 因 此 理解 MachineFunction 对 象 及 相应 的 控制 流 图 的 构 
建 是 相当 重要 的 。 


FDD 


e 天 于 MachineFunction 类 的 具体 实现 ， 请 参见 lib/CodeGen/Machine- 
Function.cpp 文 件 ° 


编写 指令 选择 大 


为 了 进行 指令 选择 ，LLVM 用 一 种 底层 的 数据 相关 的 DAG 结 构 
SelectionDAG 来 表示 LLVM IR。 在 SelectionDAG 上 能 够 实施 各 种 
简化 的 、 平 台 相 关 的 优化 。SelectionDAG 是 平台 无 关 的 、 人 简单 的 、 强 
大 的 表示 ， 能 够 在 把 IR lowering 到 特定 平台 时 发 挥 重要 作用 。 


详细 步骤 


下 面 的 代码 展示 了 SelectionDAG 类 的 基本 结构 ， 包 括 它 的 数据 成 
员 ， 从 类 中 设置 或 检索 有 效 信 息 的 各 种 琅 数 ，SelectionDAG 类 定义 如 


a 


class SelectionDAG { 

const TargetMachine &TM; 

const TargetLowering &TLI; 

const TargetSelectionDAGInfo &TSI; 
MachineFunction *MF; 

LLVMContext *Context; 


CodeGenOpt::Level OptLevel; 


SDNode EntryNode; 
// Root 一 整个 DAG 的 根 节 点 


SDValue Root; 


// ALLINodes 一 当前 DAG 节 点 链表 


ilist«SDNode» AllNodes; 


// NodeAllocatorrype 一 我 们 使 用 的 分 配 SDNode 的 分 配器 类 型 


typedef RecyclingAllocator<BumpPtrAllocator, SDNode, 


sizeof(LargestSDNode), 


AlignOf«MostAlignedSDNode»::Alignment» 


NodeAllocatorType; 


BumpPtrAllocator OperandAllocator; 


BumpPtrAllocator Allocator; 


SDNodeOrdering *Ordering; 


public: 


struct DAGUpdateListener { 


DAGUpdateListener *const Next; 


SelectionDAG &DAG; 


explicit DAGUpdateListener(SelectionDAG &D) 


Next(D.UpdateListeners), DAG(D) { 


DAG.UpdateListeners = this; 
} 


private: 


friend struct DAGUpdateListener; 


DAGUpdateListener *UpdateListeners; 


void init(MachineFunction &mf); 


// 设置 SelectionDAG 根 节点 的 函数 


const SDValue &setRoot(SDValue N) ( 


assert((!N.getNode() || N.getValueType() -- MVT::Other) && 


"DAG root value is not a chain!"); 

if (N.getNode()) 
checkForCycles(N.getNode()); 

Root - N; 

if (N.getNode()) 
checkForCycles(this); 


return Root; 


void Combine(CombineLevel Level, AliasAnalysis &AA, 


CodeGenOpt::Level OptLevel); 


SDValue getConstant(uint64 t Val, EVT VT, bool 
false); 


SDValue getConstantFP(double Val, EVT VT, bool 
false); 


isTarget 


isTarget 


SDValue getGlobalAddress(const GlobalValue *GV, DebugLoc 
EVT 
VT, int64 t offset = 0, bool isTargetGA = false, 


unsigned char TargetFlags - 0); 


SDValue getFrameIndex(int FI, EVT VT, bool isTarget - false); 


SDValue getTargetIndex(int Index, EVT VT, int64 t Offset = 0, 


unsigned char TargetFlags - 0); 


// 此 函数 返回 与 这 个 MachineBasicBlock 对 应 的 基本 块 


SDValue getBasicBlock(MachineBasicBlock *MBB); 


SDValue getBasicBlock(MachineBasicBlock *MBB, DebugLoc dl); 


SDValue getExternalSymbol(const char *Sym, EVT VT); 


SDValue getExternalSymbol(const char *Sym, DebugLoc dl, 
VT); 


SDValue getTargetExternalSymbol(const char *Sym, EVT VT, 


unsigned char TargetFlags - 0); 


// 此 画 数 返回 这 个 SelectionDAG6 节 点 对 应 的 值 的 类 型 
SDValue getValueType(EVT); 


SDValue getRegister(unsigned Reg, EVT VT); 


DL, 


EVT 


SDValue getRegisterMask(const uint32 t *RegMask); 


SDValue getEHLabel(DebugLoc dl, SDValue Root, MCSymbol *Label); 


SDValue getBlockAddress(const BlockAddress *BA, EVT VT, 


int64 t Offset = 0, bool isTarget = false, 


unsigned char TargetFlags - 0); 


SDValue getSExtOrTrunc(SDValue Op, DebugLoc DL, EVT VT); 


SDValue getZExtOrTrunc(SDValue Op, DebugLoc DL, EVT VT); 


SDValue getZeroExtendInReg(SDValue Op, DebugLoc DL, EVT SrcTy); 


SDValue getNOT(DebugLoc DL, SDValue Val, EVT VT); 


// 此 函数 获得 SelectionDAG 节 点 


SDValue getNode(unsigned Opcode, DebugLoc DL, EVT VT); 


SDValue getNode(unsigned Opcode, DebugLoc DL, EVT VT, SDValue 


N); 


SDValue getNode(unsigned Opcode, DebugLoc DL, EVT VT, SDValue 
N1, 


SDValue N2); 


SDValue getNode(unsigned Opcode, DebugLoc DL, EVT VT, 


SDValue N1, SDValue N2, SDValue N3); 


SDValue getMemcpy(SDValue Chain, DebugLoc dl, SDValue Dst, 
SDValue 

Src,SDValue Size, unsigned Align, bool isVol, bool 
AlwaysInline, 


MachinePointerInfo DstPtrInfo,MachinePointerInfo SrcPtrInfo); 


SDValue getAtomic(unsigned Opcode, DebugLoc dl, EVT MemVT, 
SDValue Chain, 

SDValue Ptr, SDValue Cmp, SDValue Swp, 

MachinePointerInfo PtrInfo, unsigned Alignment, 

AtomicOrdering Ordering, 


SynchronizationScope SynchScope); 


SDNode *UpdateNodeOperands(SDNode *N, SDValue 0p); 


SDNode *UpdateNodeOperands(SDNode *N, SDValue Opi,  SDValue 


Op2); 


SDNode *UpdateNodeOperands(SDNode *N, SDValue Opi, SDValue Op2, 


SDValue 0p3); 


SDNode *SelectNodeTo(SDNode *N, unsigned TargetOpc, EVT VT); 


SDNode *SelectNodeTo(SDNode *N, unsigned TargetOpc, EVT VT, 


SDValue 0p1); 


SDNode *SelectNodeTo(SDNode *N, unsigned TargetOpc, EVT VT, 
SDValue Opi, SDValue Op2); 


MachineSDNode *getMachineNode(unsigned Opcode, DebugLoc dl, EVT 


VT); 


MachineSDNode *getMachineNode(unsigned Opcode, DebugLoc dl, EVT 


VT, 


SDValue 0p1); 


MachineSDNode *getMachineNode(unsigned Opcode, DebugLoc dl, EVT 


VT, 


SDValue Opi, SDValue 0p2); 


void ReplaceAllUsesWith(SDValue From, SDValue Op); 


void ReplaceAllUsesWith(SDNode *From, SDNode *To); 


void ReplaceAllUsesWith(SDNode *From, const SDValue *To); 


bool isBaseWithConstantOffset(SDValue Op) const; 


bool isKnownNeverNaN(SDValue Op) const; 


bool isKnownNeverZero(SDValue Op) const; 


bool isEqualTo(SDValue A, SDValue B) const; 


SDValue UnrollVectorOp(SDNode *N, unsigned ResNE - 0); 


bool isConsecutiveLoad(LoadSDNode *LD, LoadSDNode *Base, 


unsigned Bytes, int Dist) const; 


unsigned InferPtrAlignment(SDValue Ptr) const; 


private: 


bool RemoveNodeFromCSEMaps(SDNode *N); 


void AddModifiedNodeToCSEMaps(SDNode *N); 


SDNode  *FindModifiedNodeSlot(SDNode *N,  SDValue Op, void 


*&InsertPos); 
SDNode *FindModifiedNodeSlot(SDNode *N, SDValue Opi, SDValue 
Op2, 


void *&InsertPos); 


SDNode *FindModifiedNodeSlot(SDNode *N, const SDValue *Ops, 


unsigned NumOps,void *&InsertPos); 


SDNode *UpdadeDebugLocOnMergedSDNode(SDNode *N, DebugLoc loc); 


void DeleteNodeNotInCSEMaps(SDNode *N); 


void DeallocateNode(SDNode *N); 


unsigned getEVTAlignment(EVT MemoryVT) const; 

void allnodes clear(); 

std::vector«SDVTList» VTList; 

std::vector«condCodeSDNode*» CondCodeNodes; 
std::vector«SDNode*» ValueTypeNodes; 

std::map«EVT, SDNode*, EVT::compareRawBits» 
ExtendedValueTypeNodes; 

StringMap<SDNode*> ExternalSymbols; 

std: :map<std::pair<std::string, unsigned char»,SDNode*- 


TargetExternalSymbols; 
}; 


工作 原理 


之 前 的 代码 展示 了 SelectionDAG 类 的 多 个 平台 无 关 的 创建 多 种 
SDNode 的 方法 ， 以 及 检索 、 计 算 SelectionDAG 几 节点 有 用 信息 的 方 


法 ， 由 SelectionDAG 类 提供 的 更 新 、 替 换 方法 。 这 些 方法 大 多 数 定 义 
于 SelectionDAG.cpp 文 件 中 。 需 要 注意 的 是 ，SelectinoDAG 图 及 它 的 节 
点 类 型 SDNode， 被 设计 用 于 既 可 以 存储 平台 无 天 的 信息 ， 也 可 以 存储 
特定 平台 的 信息 。 例 如 ，SDNode 类 的 isTargetOpcode0 和 isMachine 
Opcode0) 方 法 用 于 判断 操作 码 是 否 为 目标 平台 的 操作 码 或 者 平台 无 关 
的 机 器 码 。 这 是 因为 虽然 是 同一 种 类 类 型 NodeType， 但 是 范围 不 同 ， 

所 以 既 用 于 表达 真实 平台 的 操作 码 ， 也 用 于 表达 机 絮 指 令 的 操作 码 。 


合法 化 SelectionDAG 


SelectionDAG 是 指令 和 操作 数 的 、 平 台 无 关 的 表示 。 但 是 ， 目 标 
平台 往往 不 能 完全 文 持 其 中 的 指令 和 数据 类 型 。 因 此 ， 我 们 把 初始 构 
建 的 SelectionDAG 图 中 目标 平台 不 文 持 的 指令 称 为 非法 指令 。 非 法 
DAG 需 要 经 过 DAG 合 法 化 的 步 又 ， 转 为 目标 架构 完全 文 持 的 合法 
DAG * 


DAG 合 法 化 有 两 种 方式 来 把 不 文 持 的 数据 类 型 转 为 文 持 的 : 一 种 
是 提升 (promoting) 将 小 的 数 一 一 据 类 型 提升 为 大 的 数据 类 型 ， 男 一 
种 瓯 是 把 大 的 数据 类 型 缩减 为 小 的 数据 类 型 。 例 如 ， 如 采 目 标 织 构 仅 
文 持 32 位 整数 数据 类 型 ， 那 么 对 于 DAG 中 的 8 位 整数 或 16 位 整数 这 样 
小 的 数据 类 型 ， 就 需要 提升 到 32 位 整数 类 型 来 表达 。 而 大 的 数据 类 
型 ， 例 如 64 位 整数 ， 束 扩展 到 用 两 个 32 位 整数 数据 类 型 来 表达 。 在 提 
升 和 扩展 数据 类 型 的 过 程 中 ，Sign 和 zero 也 要 加 上 ， 使 得 结果 保持 一 
致 。 


类 似 地 ， 疝 量 类 型 可 以 通过 切 分 为 更 小 的 向 量 (从 向 量 中 提取 元 
素 ) 或 者 拓宽 小 的 向 量 类 型 转 为 大 的 、 已 支持 的 向 量 类 型 来 合法 化 。 


QUA A PRIA HNE, HEA Al MERE [8] SERO 8E A HK 
标量 形式 。 


合法 化 阶段 也 能 命令 这 种 类 型 的 寄存 右 类 来 支持 给 定 的 数据 。 


详细 步骤 


SelectionDAGLegalize 类 有 多 个 数据 成 员 ， 用 来 记录 合法 的 节点 ， 
以 及 合法 化 地 点 的 各 种 方法 。 下 面 的 合法 化 阶段 代码 快照 来 和 目 LLVM 
代码 库 ， 展 示 了 合法 化 实现 的 基本 框架 : 


namespace { 

class SelectionDAGLegalize : public 
SelectionDAG: :DAGUpdateListener { 
const TargetMachine &TM; 

const TargetLowering &TLI; 


SelectionDAG &DAG; 


SelectionDAG::allnodes iterator LegalizePosition; 


// LegalizedNodes: 已 经 合法 化 的 节点 集合 


SmallPtrSet«SDNode *, 16» LegalizedNodes; 


public: 


explicit SelectionDAGLegalize(SelectionDAG &DAG); 


void LegalizeDAG(); 


private: 


void LegalizeOp(SDNode *Node); 


SDValue OptimizeFloatStore(StoreSDNode *ST); 


// 合法 化 加 载 操作 
void LegalizeLoadOps(SDNode *Node); 


// 合法 化 存储 操作 
void LegalizeStoreOps(SDNode *Node); 


// 操作 Selection DAG 节 点 的 主要 合法 化 函数 
void SelectionDAGLegalize::LegalizeOp(SDNode *Node) { 
// 目标 节点 (常数 ) 需要 更 进一步 地 合理 化 


if (Node->getOpcode() == ISD::TargetConstant) 
return; 
for (unsigned i = 0, e = Node-»getNumValues(); i !- e; ++1) 


assert(TLI.getTypeAction(*DAG.getContext(), Node- 
>getValueType(i)) 


== TargetLowering::TypeLegal && "Unexpected illegal type!"); 


for (unsigned i = ©, e = Node->getNumOperands(); i !- e; ++i) 


assert((TLI.getTypeAction(*DAG.getContext(), 
Node-»getOperand(i).getValueType()) 三 三 
TargetLowering::TypeLegal || 
Node->getOperand(i).getOpcode() == ISD::TargetConstant) 
&& 


"Unexpected illegal type!"); 


TargetLowering::LegalizeAction Action - 
TargetLowering::Legal; 


bool SimpleFinishLegalizing - true; 


// 基于 指令 操作 码 的 合法 化 
switch (Node->getOpcode()) { 


case ISD::INTRINSIC W CHAIN: 
case ISD::INTRINSIC WO CHAIN: 
case ISD::INTRINSIC VOID: 
case ISD::STACKSAVE: 
Action - TLI.getOperationAction(Node-»getOpcode(), 
MVT: :Other); 


break; 


工作 原理 


SelectionDAGLegalize 类 的 许多 成 员 函 数 都 依赖 目标 平台 的 信息 ， 
fil] 如 Lega lizeOp ， 这 些 信 息 由 SelectionDAGLegalize 类 的 const 
TargetLowering &TLI & ži be HE (其 他 的 成 员 也 许 会 依赖 const 
TargetMachine &TMENZ&) 。 我 们 来 看 看 合法 化 过 程 是 如 何 进 行 的 。 


具体 的 合法 化 有 两 种 ， 类 型 合法 化 和 指令 合法 化 。 首 先 来 看 看 类 
型 合法 化 。 使 用 如 下 命令 创建 一 个 test.]] 文 件 : 


$ cat test.11 

define i64 Qtest(i64 %a, 164 *b, i64 %c) { 
%add = add nsw i64 %a, %b 
%div = sdiv i164 %add, %c 


ret 164 %div 


这 个 例子 中 的 数据 类 型 是 i64， 对 于 x86 平 台 来 说 ， 仅 仅 文 持 32 位 
数据 类 型 ， 因 此 i64 这 个 数据 类 型 是 非法 的 。 为 了 运行 这 段 代 码 ， 数 据 
类 型 需要 转 为 32， 这 在 DAG 合 法 化 阶段 完成 。 


执行 以 下 命令 ， 查 看 类 型 合法 化 之 前 的 DAG: 


$ llc -view-dag-combinei-dags test.11 


下 图 是 类 型 合法 化 之 前 的 DAG: 
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dag-combinel input for test: 


执行 以 下 命令 ， 查 看 类 型 合法 化 之 后 的 DAG: 


$ llc -view-dag-combine2-dags test.11 
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dag-combine2 input for test: 


如 果 仔 细 观 察 DAG 节 点 ， 你 会 发 现在 合法 化 之 前 的 每 个 操作 都 有 
i64 类 型 ， 这 是 因为 民有 i64 数 据 类 型 ， 而 DAG 节 点 和 IR 指 令 是 一 一 对 
应 的 。 但 是 目标 机 器 x86 仅 支持 i32 类 型 (32 位 整数 类 型 ) 。 在 DAG 合 
法 化 阶段 ， 不 支持 的 i64 类 型 被 转 为 已 支持 的 32 类型。 这 个 操作 称 为 
类 型 扩展 (expanding) 一 一 将 较 大 的 类 型 分 解 为 较 小 的 类 型 。 例 如 ， 
在 仅 支 持 i32 值 的 目标 平台 上 ，i64 类 型 的 值 都 被 分 解 成 一 对 i32 类 型 的 
值 。 因 此 ， 在 合法 化 之 后 ， 所 有 的 操作 仅 包含 i32 数 据 类 型 了 。 


接 下 来 让 我 们 看 看 指令 是 如 何 合法 化 的 ， 用 以 下 命令 创建 test]] 文 
Hs 


$ cat test.11 

define i32 Qtest(i32 %a, 132 *b, i32 %c) { 
%add = add nsw 132 %a, %b 
%div = sdiv 132 %add, %c 


ret 132 %div 


执行 以 下 命令 ， 查 看 合法 化 之 前 的 DAG: 


$ llc -view-dag-combinei-dags test.11 


下 图 是 合法 化 之 前 的 DAG: 
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dag-combinel input for test: 


执行 以 下 命令 ， 查 看 合法 化 之 后 的 DAG: 


$ llc -view-dag-combine2-dags 


test.11 


dag-combine2 input for test: 


在 指令 合法 化 之 前 ，DAG 中 包含 sdiv 指 令 。 但 对 于 x86 目 标 平台 来 
说 ， 是 不 支持 sdiv 指 令 的 ， 因 此 它 是 非法 的 。 但 是 ， 由 于 x86 支 持 
sdivrem 指 令 ， 在 合法 化 阶段 sdiv 指 令 束 被 转 为 了 sdivrem 指 令 ， 如 前 面 
的 两 个 DAG 所 示 。 


优化 SelectionDAG 


SelectionDAG 表 达 以 节点 的 形式 存储 了 数据 和 指令 信息 。 与 
LLVM IR 的 InstCombinePass 类 似 ， 这 些 厄 点 也 可 以 合并 并 优化 ， 得 到 
最 小 化 的 SelectionDAG。 不 过 不 仅 只 有 DAGCombine 操 作 来 优化 
SelectionDAG。 在 DAGLegalize (合法 化 DAG) 过 程 中 可 能 会 产生 一 
些 见 余 的 DAG 市 点 ， 这 也 需要 在 随后 的 DAG 优 化 Pass 消 除 。 最 后 得 到 
HJSelectionDAGS ENE EH Id AC ° 


详细 步骤 


f£ DAGCombine2S F5 TT Z RD visit** Q AY BY A ER BY, wits 
ee qe Ld in 
SDNode 节 点 来 执行 优化 。 需 要 注意 的 是 ， 从 DAGCombiner 的 构造 画 
数 中 可 以 猜 到 ， 我 们 可 以 猜测 一 些 优化 需要 别名 分 析 的 信息 。 


class DAGCombiner ( 
SelectionDAG &DAG; 

const TargetLowering &TLI; 
CombineLevel Level; 
CodeGenOpt::Level OptLevel; 
bool LegalOperations; 


bool LegalTypes; 


SmallPtrSet«SDNode*, 64» WorkListContents; 


SmallVector«SDNode*, 64» WorkListOrder; 
AliasAnalysis &AA; 


// 将 SDNodes 用 户 加 入 worklist 
void AddUsersToWorkList(SDNode *N) { 
for (SDNode::use iterator UI - N-»use begin(), 
UE = N->use end(); UI !- UE; ++UI) 
AddToWorkList(*UI); 


} 
SDValue visit(SDNode *N); 


public: 


void AddToWorkList(SDNode *N) ( 
WorkListContents.insert(N); 
WorkListOrder.push back(N); 

} 

void removeFromWorkList(SDNode *N) { 


WorkListContents.erase(N); 


// SDNode 合 并 操作 


SDValue CombineTo(SDNode *N, const SDValue *To, unsigned NumTo, 


bool AddTo - true); 


SDValue CombineTo(SDNode *N, SDValue Res, bool AddTo - true) ( 
return CombineTo(N, &Res, 1, AddTo); 
} 
SDValue CombineTo(SDNode *N, SDValue ResO, SDValue Resi, 
bool AddTo = true) { 
SDValue To[] = { ResO, Resi }; 
return CombineTo(N, To, 2, AddTo); 
} 
void CommitTargetLoweringOpt(const 
TargetLowering::TargetLoweringOpt 


&TLO); 


private: 


bool SimplifyDemandedBits(SDValue Op) { 


unsigned BitWidth - 


Op.getValueType().getScalarType().getSizeInBits(); 


APInt Demanded - APInt::getAllOnesValue(BitWidth); 


return SimplifyDemandedBits(Op, 


} 


Demanded); 


bool SimplifyDemandedBits(SDValue Op, const APInt &Demanded); 


bool CombineToPreIndexedLoadStore(SDNode *N); 


bool CombineToPostIndexedLoadStore(SDNode *N); 


void 


ReplaceLoadWithPromotedLoad(SDNode *Load, 


*ExtLoad); 


SDValue 


SDValue 


SDValue 


SDValue 


SDValue 


SDValue 


SDNode 


PromoteOperand(SDValue Op, EVT PVT, bool &Replace); 


SExtPromoteOperand(SDValue Op, 


ZExtPromoteOperand(SDValue Op, 


PromotelntBinOp(SDValue 0p); 


PromotelntShiftOp(SDValue 0p); 


PromoteExtend(SDValue 0p); 


EVT PVT); 


EVT PVT); 


bool PromoteLoad(SDValue Op); 
void ExtendSetCCUses(SmallVector«SDNode*, 4» SetCCs, 
SDValue Trunc, SDValue ExtLoad, DebugLoc DL, 


ISD::NodeType ExtType); 


SDValue combine(SDNode *N); 


// MREBSDT ARREA visit, SIR EAR BG THU 


SDValue visitTokenFactor(SDNode *N); 


SDValue visitMERGE VALUES(SDNode *N); 


SDValue visitADD(SDNode *N); 
SDValue visitSUB(SDNode *N); 
SDValue visitADDC(SDNode *N); 
SDValue visitSUBC(SDNode *N); 
SDValue visitADDE(SDNode *N); 
SDValue visitSUBE(SDNode *N); 


SDValue visitMUL(SDNode *N); 


public: 


DAGCombiner (SelectionDAG &D, AliasAnalysis &A, 
CodeGenOpt::Level OL) 

DAG(D), TLI(D.getTargetLoweringInfo()), 
Level(BeforeLegalizeTypes), 


OptLevel(OL), LegalOperations(false),  LegalTypes(false), 
AACA) {} 


// 对 以 下 操作 的 Selection DAG 转 换 
SDValue DAGCombiner::visitMUL(SDNode *N) ( 
SDValue NO = N->getOperand(0); 
SDValue N1 = N->getOperand(1); 
ConstantSDNode *NOC = dyn_cast<ConstantSDNode>(NO); 
ConstantSDNode *N1C = dyn_cast<ConstantSDNode>(N1); 
EVT VT = NO.getValueType(); 
if (VT.isVector()) ( 
SDValue FoldedVOp - SimplifyVBinOp(N); 
if (FoldedVOp.getNode()) return FoldedVOp; 


if (NO.getOpcode() == ISD::UNDEF || Nií.getOpcode() == 
ISD::UNDEF) 


return DAG.getConstant(0, VT); 


if (NOC && N1C) 


return DAG.FoldConstantArithmetic(ISD::MUL, VT, NOC, N1C); 


if (NOC && !N1C) 


return DAG.getNode(ISD::MUL, N->getDebugLoc(), VT, N1, NO); 


if (N1C && N1C-»isNullValue()) 


return N1; 


if (N1C && N1C->isAllOnesValue( )) 


return DAG.getNode(ISD::SUB, N->getDebugLoc(), VT, 


DAG.getConstant(0, VT), NO); 
if (NIC && N1C->getAPIntValue().isPowerOf2() ) 
return DAG.getNode(ISD::SHL, N->getDebugLoc(), VT, NO, 
DAG. getConstant(N1C->getAPIntValue().logBase2(), 


getShiftAmountTy(NO.getValueType()))); 


if (N1C && (-N1C-»getAPIntValue()).isPowerOf2()) { 
unsigned Log2Val = (-Ni1C-»getAPIntValue()).logBase2(); 
return DAG.getNode(ISD::SUB, N->getDebugLoc(), VT, 
DAG.getConstant(0, VT), 
DAG.getNode(ISD::SHL, N->getDebugLoc(), VT, NO, 
DAG.getConstant(Log2Val, 


getShiftAmountTy(NO.getValueType())))); 


} 
if (N1C && NO.getOpcode() == ISD::SHL && 
isa«ConstantSDNode»(NO.getOperand(1))) { 
SDValue C3 = DAG.getNode(ISD::SHL, N->getDebugLoc(), VT, 
N1, 


NO.getOperand(1)); 
AddToWorkList(C3.getNode()); 
return DAG.getNode(ISD::MUL, N->getDebugLoc(), VT, 


NO.getOperand(0), C3); 


if (NO.getOpcode() -- ISD::SHL && 


isa«ConstantSDNode»(NO.getOperand(1)) && 


NO.getNode()->hasOneUse()) { 
Sh = NO; Y = N1; 
} else if (N1.getOpcode() == ISD::SHL && 
isa<ConstantSDNode>(N1.getOperand(1)) && 
N1.getNode()->hasOneUse()) { 
Sh = N1; Y = NO; 
} 
if (Sh.getNode()) { 
SDValue Mul = DAG.getNode(ISD::MUL, N->getDebugLoc(), VT, 
Sh.getOperand(0), Y); 
return DAG.getNode(ISD::SHL, N->getDebugLoc(), VT, 


Mul, Sh.getOperand(1)); 
} 


if (N1C && NO.getOpcode() == ISD::ADD && NO.getNode()- 
>hasOneUse( ) && 
isa<ConstantSDNode>(NO.getOperand(1))) 
return DAG.getNode( ISD: :ADD, N->getDebugLoc(), VT, 
DAG.getNode( ISD: :MUL, NO.getDebugLoc(), 
VT, NO.getOperand(0), N1), DAG.getNode( ISD: :MUL, 
N1.getDebugLoc(), VT, NO.getOperand(1), N1)); 


SDValue RMUL = ReassociateOps(ISD::MUL, N->getDebugLoc(), NO, 


N1); 


if (RMUL.getNode() !- 0) return RMUL; 


return SDValue(); 
} 


工作 原理 


如 前 面 的 代码 所 示 ， 一 些 DAGCombine Pass 会 寻找 特定 的 模式 ， 
然后 把 这 些 模 式 折合 成 一 个 DAG。 基 本 上 这 样 可 以 减少 DAG 的 数量 ， 
同时 lowering DAG。 得 到 的 结果 是 优化 过 的 SelectionDAG 类 。 


FDD 


e 关于 优化 的 SelectionDAG 类 的 具体 实现 ， 请 参见 
lib/CodeGen/Selection DAG/DAGCombiner.cpp 文 件 。 


基于 DAG 的 指令 选择 


在 合法 化 和 DAG 合 并 之 后 ，SelectionDAG 已 经 被 优化 了 。 但 指令 
依旧 是 平台 无 关 的 ， 需 要 映射 到 平台 相关 的 指令 。 而 指令 选择 阶段 将 
采用 目标 无 关 的 DAG 节 点 作为 输入 ， 匹 配 特 定 的 模式 ， 将 其 映射 到 特 
定 平台 的 DAG 输 出 节点 。 


TableGen DAG 指 令 选 择 器 从 .td 文件 读 入 指令 模式 ， 目 动 化 构建 部 
分 的 模式 匹配 代码 。 


详细 步骤 


SelectionDAGISel 是 在 SelectionDAG 的 基础 上 上， 进行 基 于 模式 匹配 
的 指令 选择 需 的 通用 基 类 ， 它 继承 了 MachineFunctionPass 类 ， 有 多 个 
函数 用 于 判断 操作 (GOTT) 的 合法 性 和 优化 收益 。 下 面 是 这 个 类 
的 基本 框 染 : 


class SelectionDAGISel : public MachineFunctionPass { 
public: 

const TargetMachine &TM; 

const TargetLowering &TLI; 

const TargetLibraryInfo *LibInfo; 
FunctionLoweringInfo *FuncInfo; 
MachineFunction *MF; 
MachineRegisterInfo *RegInfo; 
SelectionDAG *CurDAG; 
SelectionDAGBuilder *SDB; 
AliasAnalysis *AA; 

GCFunctionInfo *GFI; 
CodeGenOpt::Level OptLevel; 


static char ID; 


explicit SelectionDAGISel(const TargetMachine &tm, 
CodeGenOpt::Level OL = CodeGenOpt: :Default); 


virtual -SelectionDAGISel(); 


const TargetLowering &getTargetLowering() { return TLI; } 


virtual void getAnalysisUsage(AnalysisUsage &AU) const; 


virtual bool runOnMachineFunction(MachineFunction &MF); 


virtual void EmitFunctionEntryCode() {} 


virtual void PreprocessISelDAG() {} 


virtual void PostprocessISelDAG() {} 


virtual SDNode *Select(SDNode *N) - 0; 


virtual bool SelectInlineAsmMemoryOperand(const SDValue &Op, 


char ConstraintCode, 


std::vector«SDValue» &OutOps) { 


return true; 


virtual bool IsProfitableToFold(SDValue N, SDNode *U, SDNode 


*Root) const; 


static bool IsLegalToFold(SDValue N, SDNode *U, SDNode *Root, 
CodeGenOpt::Level OptLevel, 


bool IgnoreChains - false); 


enum BuiltinOpcodes { 
OPC Scope, 


OPC RecordNode, 


OPC CheckOpcode, 

OPC SwitchOpcode, 

OPC CheckFoldableChainNode, 

OPC EmitInteger, 

OPC EmitRegister, 

OPC EmitRegister2, 

OPC EmitConvertToTarget, 

OPC EmitMergeInputChains, 

}; 

static inline int getNumFixedFromVariadicInfo(unsigned Flags) { 


return ((Flags&OPFL VariadicInfo) »» 4)-1; 


protected: 


// DAGSize 一 进行 指令 选择 的 DAG 的 大 小 


unsigned DAGSize; 


void ReplaceUses(SDValue F, SDValue T) ( 


CurDAG-»-ReplaceAllUsesOfValueWith(F, T); 


void ReplaceUses(const SDValue *F, const SDValue *T, unsigned 
Num) 1 


CurDAG-»-ReplaceAllUsesOfValuesWith(F, T, Num); 


void ReplaceUses(SDNode *F, SDNode *T) ( 


CurDAG-»-ReplaceAllUsesWith(F, T); 


void SelectInlineAsmMemoryOperands(std::vector«SDValue» &0ps); 


public: 
bool CheckAndMask(SDValue LHS, ConstantSDNode *RHS, 


int64 t DesiredMaskS) const; 


bool CheckOrMask(SDValue LHS, ConstantSDNode *RHS, 


int64 t DesiredMaskS) const; 


virtual bool CheckPatternPredicate(unsigned PredNo) const ( 
llvm unreachable("Tblgen should generate the implementation 

of this!"); 

} 


virtual bool CheckNodePredicate(SDNode *N, unsigned PredNo) 
const { 
llvm unreachable("Tblgen should generate the implementation 


of this!"); 
} 


private: 


SDNode *Select INLINEASM(SDNode *N); 


SDNode *Select UNDEF(SDNode *N); 


void CannotYetSelect(SDNode *N); 


void DoInstructionSelection(); 


SDNode *MorphNode(SDNode *Node, unsigned TargetOpc, SDVTList 


VTs, 


const SDValue *Ops, unsigned NumOps, unsigned EmitNodeInfo); 


void PrepareEHLandingPad(); 


void SelectAllBasicBlocks(const Function &Fn); 


bool TryToFoldFastISelLoad(const LoadInst HEL: const 


Instruction 


*FoldInst, FastISel *FastIS); 


void FinishBasicBlock(); 


void SelectBasicBlock(BasicBlock::const iterator Begin, 


BasicBlock::const iterator End, 


bool &HadTailCall); 


void CodeGenAndEmitDAG(); 


void LowerArguments(const BasicBlock *BB); 


void ComputeLiveOutVRegInfo(); 
ScheduleDAGSDNodes *CreateScheduler(); 


}; 


工作 原理 


指令 选择 阶段 需要 把 平台 无 关 的 指令 转换 为 特定 平台 的 指令 。 
TableGen 类 帮助 选择 特定 平台 的 指令 。 这 个 阶段 基本 就 是 匹配 平台 无 
关 的 输入 节点 ， 输 出 特定 平台 支持 的 节点 。 


CodeGenAndEmitDAG() Eg Zi Js] FA DoInstructionSelection() ER EL, ii 
历 DAG 市 点 并 对 每 个 节点 调用 Select() 函 数 ， 如 下 : 


SDNode *ResNode = Select(Node); 


Select() 函 数 是 需要 由 特定 平台 实现 的 抽象 方法 。x86 日 标 平 台 实 
现 了 X86DAGToDAGISel::Select0 函 数 。 这 个 函数 拦截 一 部 分 节点 进行 
手动 匹配 ， 而 大 部 分 工作 则 委托 给 X86DAGToDAGISel::SelectCode0) 函 
类 i2 b 
数 完成 。 


= 


X86DAGToDAGISel::SelectCode ER Zt FH TableGen H 2/J Æ AK » E £3 
合 一 个 匹配 表 ， 随 后 调用 SelectionDAGISel::SelectCodeCommon0O 泛 型 
函数 ， 并 把 匹配 表 传 给 它 。 


例如 : 


$ cat test.1l 


define 132 Qtest(i32 %a, 132 %b, 132 %c) { 


%add = add nsw i32 96a, %b 
%div = sdiv i32 %add, %C 


ret i32 %div 


执行 以 下 命令 ， 查 看 指令 选择 之 前 的 DAG: 


$ llc -view-isel-dags test.11 


RI 


下 图 是 指令 选择 之 前 的 DAG: 
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执行 以 下 命令 ， 查 看 指令 选择 之 后 的 DAG: 


$ llc -view-sched-dags test.11 
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scheduler input for test: 


可 以 看 到 ， 在 指令 选择 阶段 Load 操 作 被 转换 为 MOV32rm 机 器 码 。 


TRA Wed 


。 关于 指令 选择 的 具体 实 i 


HB. 请 人 参见 
lib/CodeGen/SelectionDAG/Selec- tionDAGISel.cpp 文 件 。 


基于 SelectionDAG 的 指令 调度 


到 现在 为 止 ， 我 们 的 SelectionDAG 节 点 已 经 由 目标 平台 所 支持 的 
指令 和 操作 数 所 组 成 了 。 但 是 ， 代 码 仍然 是 DAG 形 式 的 。 日 标 染 构 以 
序列 执行 代码 。 所 以 ， 下 一 步 就 是 对 SelectionDAG 的 节点 进行 调度 。 


调度 右 负 责 安排 DAG 中 指令 的 执行 顺序 。 在 此 过 程 中 ， 它 考虑 各 
种 局 发 式 优化 ， 例 如 寄存 器 压力 ， 以 优化 指令 执行 顺序 、 最 小 化 指令 
执行 的 延 开 时 间 。 在 安排 了 DAG 下 点 的 执行 顺序 之 后 ，DAG 下 点 转 为 
MachineInstrs 列 表 并 且 SelectionDAG 下 点 被 解构 。 


详细 步骤 


在 ScheduleDAG.h 中 定义 了 多 个 基本 结构 ， 在 ScheduleDAG.cpp 文 
件 中 实现 。ScheduleDAG 类 惑 是 一 个 调度 絮 基 类 ， 被 其 他 调度 器 继 
承 ， 它 仅仅 提供 了 关于 图 的 修改 操作 ， 例 如 和 迭 代 器 、DFS、 拓 扑 排 
序 、 移 动 周 围 节 点 的 函数 等 。 


class ScheduleDAG { 


public: 


const TargetMachine &TM; // 目标 平台 处 理 需 


const TargetInstrInfo *TII; // 目标 平台 指令 


const TargetRegisterInfo *TRI; // 目标 平台 寄存 器 信息 


MachineFunction &MF; // 机 器 码 函 数 
MachineRegisterInfo &MRI; // 虚拟 /真实 寄存 器 映射 


std: :vector<SUnit> SUnits; // 调度 单元 


SUnit EntrySU; // 区 域 进入 的 特定 节点 


SUnit ExitSU; // 区 域 退 出 的 特定 节点 


explicit ScheduleDAG(MachineFunction &mf); 


virtual -ScheduleDAG(); 


void clearDAG(); 


const MCInstrDesc *getInstrDesc(const SUnit *SU) const ( 
if (SU->isInstr()) return &SU->getInstr()->getDesc(); 
return getNodeDesc(SU-»getNode( )); 
} 


virtual void dumpNode(const SUnit *SU) const = 0; 


private: 


const MCInstrDesc *getNodeDesc(const SDNode *Node) const; 


H 


class SUnitIterator : public 
std::iteratorsstd::forward iterator tag, 
SUnit, ptrdiff t» ( 

}; 


template <> struct GraphTraits<SUnit*> ( 
typedef SUnit NodeType; 
typedef SUnitIterator ChildIteratorType; 
static inline NodeType *getEntryNode(SUnit *N) { 


return N; 


} 
static inline ChildIteratorType child begin(NodeType *N) { 


return SUnitIterator::begin(N); 


i 


static inline ChildIteratorType child_end(NodeType *N) { 
return SUnitIterator::end(N); 
} 

}; 


template <> struct GraphTraits<ScheduleDAG*> : public 
GraphTraits<SUnit*> { 
E 


// 对 DAG 的 拓扑 排序 ， 把 DAG 转 成 线性 的 指令 集合 
class ScheduleDAGTopologicalSort { 


std::vector«SUnit» &SUnits; 
SUnit *ExitSU; 
std::vector«int» Index2Node; 
std::vector«int» Node2Index; 
BitVector Visited; 
// 为 了 进行 拓扑 排序 ， 对 DAG 进 行 DFS 
void DFS(const SUnit *SU, int UpperBound, bool& HasLoop); 


void  Shift(BitVector& Visited, int LowerBound, 


UpperBound); 


void Allocate(int n, int index); 


int 


public: 


ScheduleDAGTopologicalSort(std::vector«SUnit» &SUnits, SUnit 


*EXitSU); 


void InitDAGTopologicalSorting(); 


bool IsReachable(const SUnit *SU, const SUnit *TargetSU); 


bool WillCreateCycle(SUnit *SU, SUnit *TargetSU); 


void AddPred(SUnit *Y, SUnit *X); 


void RemovePred(SUnit *M, SUnit *N); 


typedef std::vector<int>::iterator iterator; 


typedef std::vector<int>::const_iterator const_iterator; 


iterator begin() { return Index2Node.begin(); } 


const_iterator begin() const { return Index2Node.begin(); } 


iterator end() { return Index2Node.end();}} 


工作 原理 


调度 算法 实现 了 SelectionDAG 类 中 的 指令 调度 ， 包 括 拓 扑 排序 、 
深度 优 移 搜索 、 操 作画 数 、 移 动 万 点 、 指 令 列 表 迭 代 等 算法 。 它 会 
虑 各 种 司 发 式 算 法 ， 包 括 寄 存 大 压力 、 淤 出 开销 、 生 存 周期 分 析 等 ， 
来 确定 最 可 能 的 指令 调度 顺序 。 


TRA I 


。 天 于 指令 调用 的 详细 实现 ， 请 参见 lib/CodeGen/SelectionDAG 目 录 
Hy Sche-duleDAGSDNodes.cpp ^  ScheduleDAGSDNodes.h 
Schedule DAGRR-List.cpp ^ ScheduleDAGFast.cpp ^ Sche dule 
DAGVLIW.cpp 文 件 。 


[1] S frasi: Fes lin Amt (stack overflow) 不 是 同一 
^ BUS 0 EET A aS UT EUM, BEF an ln E H La EE 
AE ESR, SEREEN NEF at eae, ALE ih El 
主 存 中 ， 在 使 用 之 前 加 载 到 寄存 器 中 ， 之 后 再 存 回 主 存 。 一 一 译 者 注 


[2] 把 代码 发 射 到 内 存 : 传统 的 代码 编译 会 得 到 一 个 可 执行 文件 ， 
在 程序 执行 时 这 个 文件 中 的 代码 和 数据 会 加 载 到 内 存 ， 然 后 执行 。 而 
JIT 则 跳 过 了 可 执行 文件 ， 直 接 把 代码 放 到 内 存 中 指定 的 位 置 来 执行 ， 
以 达到 动态 执行 的 效果 。 一 一 译 者 注 
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ZI SEES i DÀ, Pii: 


。 消 除 机 器 码 的 公共 了 于 表达 式 
。 活动 周期 分 析 

。 e Fae RO 

。 插入 头 尾 代码 

。 代码 发 射 

。 尾 调用 优化 

。 见 第 调用 优化 


概述 


目前 生成 的 机 器 码 还 没有 映 映 到 真实 的 目标 架构 的 寄存 器 ， 因 为 
现在 的 寄存 器 还 仅仅 是 虚拟 寄存 右 ， 它 的 数量 无 限 ， 所 以 说 生成 的 机 
郁 码 是 SSA 形 式 的 。 但 是 ， 目 标 平台 的 寄存 器 是 数量 有 限 的 ， 因 此 ， 
还 需要 寄存 右 分 配 算法 进行 许多 局 发 式 计 算 ， 来 以 一 种 最 住 的 方式 把 
无 限 的 寄存 右 集 合 映 冉 到 有 限 的 物理 寄存 紫 集 合 


不 过 在 寄存 颖 分 配 之 前 ， 代 码 还 有 优化 的 机 会 ， 而 SSA 形 式 的 机 
器 码 能 够 轻松 地 应 用 许多 优化 算法 。 对 于 一 些 优化 技术 的 算法 ， 如 机 
妖 码 无 用 代码 消除 和 机 器 码 公 共 子 表达 式 消 除 ， 几 乎 和 LLVM IR 的 一 
样 。 但 不 同 的 是 ， 对 机 器 码 的 优化 有 为 外 的 约束 检查 。 


本 章 会 展示 一 个 LLVM 代 码 库 已 经 实现 的 机 器 码 优化 技术 一 一 机 
AFF RIK DIE 


as (CSE (Common Subexpression Elimination 


BR) RIEK THD US RA CCR ZAI (ASEH o 


消除 机 器 码 公共 子 表达 式 


CSE 算 法 岂 的 目的 是 消除 公共 子 表达 式 的 计算 ， 删 除 元 余 代码 以 
减少 计算 时 间 ， 并 使 得 代码 更 加 紧凑 。 让 我 们 看 看 LLVM 代 码 库 的 代 
BK RAE I Xp du s: xu my, 详细 代码 位 于 
lib/CodeGen/MachineCSE.cpp X{# © 


详细 步骤 


1. MachineCSE X fE H F UL as 83 AE, Br DLE HEUK T 
MachineFunctionPass 类 。 它 有 多 个 成 员 ， 例 如 TargetInstructionInfo 用 于 
获取 目标 平台 指令 信息 (用 于 执行 CSE) ; TargetRegisterInfo 用 于 获取 
目标 平台 寄存 器 信息 (例如 它 是 否 属于 保留 寄存 嚣 类， 或 者 类 似 的 
38) ;，MachineDominatorTree 用 于 获取 机 器 码 区 块 支配 者 树 的 信息 。 


class MachineCSE : public MachineFunctionPass { 
const TargetInstrInfo *TII; 
const TargetRegisterInfo *TRI; 
AliasAnalysis *AA; 
MachineDominatorTree *DT; 


MachineRegisterInfo *MRI; 


2. 这 个 类 的 构造 函数 初始 化 Pass， 定 义 如 下 : 


public: 
static char ID; // Pass ID 
MachineCSE() : MachineFunctionPass(ID), 


LookAheadLimit(5), CurrVN(0) { 


initializeMachineCSEPass(*PassRegistry::getPassRegistry()); 


j 


3. getAnalysisUsage0) 函 数 确 定 了 在 此 Pass 运 行 之 前 运行 的 Pass， 通 
过 这 些 Pass 可 以 获得 一 些 当 前 Pass 需 要 的 统计 数据 : 


void getAnalysisUsage(AnalysisUsage &AU) const override { 
AU.setPreservesCFG(); 
MachineFunctionPass::getAnalysisUsage(AU); 
AU.addRequired<AliasAnalysis>(); 
AU.addPreservedID(MachineLoopInfoID); 
AU.addRequired«MachineDominatorTree»(); 


AU.addPreserved«MachineDominatorTree»(); 


4. TE Pass H E H EERE, HALE IR] HR ES Pe i8 ^ JHE 
MIEREN, BUBOEOUIEHI: 


private: 


bool PerformTrivialCopyPropagation(MachineInstr *MI, 


MachineBasicBlock *MBB); 


bool isPhysDefTriviallyDead(unsigned Reg, 
MachineBasicBlock::const iterator I, 


MachineBasicBlock::const iterator E) const; 


bool hasLivePhysRegDefUses(const MachineInstr *MI, 
const MachineBasicBlock *MBB, 

SmallSet«unsigned,8» &PhysRefs, 
SmallVectorImpl<unsigned> &PhysDefs, 

bool &PhysUseDef) const; 


bool PhysRegDefsReach(Machinelnstr *CSMI, MachineInstr *MI, 
SmallSet«unsigned,8» &PhysRefs, 
SmallVectorImpl<unsigned> &PhysDefs, 


bool &NonLocal) const; 


5. 还 有 一 些 辅助 画 数 ， 用 于 确定 对 表达 式 执 行 CSE 的 合法 性 和 收 
f E: 
bool isCSECandidate(MachineInstr *MI); 


bool isProfitableToCSE(unsigned CSReg, unsigned Reg, 
MachineInstr *CSMI, MachineInstr *MI); 


Actual CSE performing function 


bool PerformCSE(MachineDomTreeNode *Node); 
RI REE CSEER RICE UIT KELE: 
1. Passjia11 Z Ja Bi beyi FHrunOnMachineFunctionQ E82: 


bool MachineCSE::runOnMachineFunction(MachineFunction &MF)( 
if (skipOptnoneFunction(*MF.getFunction())) 


return false; 


TII - MF.getSubtarget().getInstrInfo(); 


TRI - MF.getSubtarget().getRegisterInfo(); 
MRI = &MF.getRegInfo(); 
AA = &getAnalysis<AliasAnalysis>( ); 


DT = &getAnalysis<MachineDominatorTree>(); 


return PerformCSE(DT->getRootNode()); 


2. Aa Val FA PerformCSEQ) WAL, € A DomTree hj iR T A HEA, 
Xf DomTree AAT DFS iH, Ll DomTree HY P #4 LEVI FE oe SEAT 
DomTree HJ DFS iid Ji Z Ja, WES VE Ze SETTE ET DY 
MachineBasicBlock®: 


bool MachineCSE::PerformCSE(MachineDomTreeNode *Node) { 
SmallVector«MachineDomTreeNode*, 32» Scopes; 
SmallVector«MachineDomTreeNode*, 8» WorkList; 


DenseMap«MachineDomTreeNode*, unsigned» OpenChildren; 


CurrVN = 0; 
// DFS 构建 worklist 
WorkList.push back(Node); 
do ( 
Node - WorkList.pop back val(); 
Scopes.push back(Node); 
const std::vector«MachineDomTreeNode*» &Children - 
Node-»getChildren(); 
unsigned NumChildren - Children.size(); 
OpenChildren[Node] = NumChildren; 
for (unsigned i = 0; i != NumChildren; ++i) { 
MachineDomTreeNode *Child - Children[i]; 
WorkList.push back(Child); 


j 
} while (!WorkList.empty()); 


// 执 行 CSE 
bool Changed = false; 
for (unsigned i = 0, e = Scopes.size(); i !- e; ++i) { 
MachineDomTreeNode *Node - Scopes[i]; 
MachineBasicBlock *MBB - Node-»getBlock(); 
EnterScope(MBB); 
Changed |= ProcessBlock(MBB); 


ExitScopelfDone(Node, OpenChildren); 


return Changed; 


3. F—T E SBIERZEProcessBlockOENZ&, VER FILA 
ER o TE jh MachineBasicBlock 2$ H5) 8 4 Ff Fe £t CSE HJ AYE PEAT s 
性 ， 确 定 是 否 执行 CSE: 


bool MachineCSE::ProcessBlock(MachineBasicBlock *MBB) { 


bool Changed - false; 


SmallVector«std::pair«unsigned, unsigned», 8» CSEPairs; 


SmallVector«unsigned, 2» ImplicitDefsToUpdate; 


// 遍 历 每 一 个 MachineBasicBlcok 中 的 机 器 码 指令 


for (MachineBasicBlock::iterator I = MBB->begin(), E = 
MBB->end(); I !- E; ) { 
MachineInstr *MI = &*I; 


++I; 


, 


// 检查 是 否 适 合 进行 CSE 


if (!isCSECandidate(MI)) 


continue; 


bool FoundCSE - VNT.count(MI); 
if (!FoundCSE) { 
// WU EEEEB SS RSE E NCSE 
if (PerformTrivialCopyPropagation(MI, MBB)) { 


Changed - true; 


// TE &JFMIZJS, CURE RIBERA DEE 
if (MI->isCopyLike() ) 


continue; 


// 再 次 党 试 CSE 


FoundCSE = VNT.count(MI); 


bool Commuted - false; 
if (!FoundCSE && MI->isCommutable()) { 
MachineInstr *NewMI = TII->commuteInstruction(MI); 
if (NewMI) ( 
Commuted - true; 
FoundCSE - VNT.count(NewMI); 
if (NewMI !- MI) ( 
// 新 的 指令 ， 不 需要 保存 


NewMI-»-eraseFromParent(); 


Changed - true; 
) else if (!FoundCSE) 
// MI 改变 了 了， 但 需要 重新 计 和 


(void)TII->commuteInstruction(MI); 


// 如 采 这 条 指令 定义 了 物理 寄存 器 ， 那 么 值 可 能 被 使 用 ， 用 公共 子 表 达 式 


是 不 安全 的 。 


// 如 果 指 令 使 用 了 物理 寄存 器 ， 那 么 也 是 不 安全 的 。 
bool CrossMBBPhysDef = false; 


SmallSet«unsigned, 8» PhysRefs; 
SmallVector«unsigned, 2» PhysDefs; 
bool PhysUseDef - false; 


// 检查 这 条 指令 是 否 有 CSE 的 标记 。 检 查 它 是 否 使 用 了 物理 寄存 器 ， 如 


fr XE DL DUH 
CSE 标 记 


if (FoundCSE && hasLivePhysRegDefUses(MI, MBB, PhysRefs, 


PhysDefs, 
PhysUseDef)) { 


FoundCSE - false; 


if (!FoundCSE) ( 
VNT.insert(MI, CurrVN++); 
Exps.push back(MI); 


continue; 


// 判断 是 否 存在 公共 子 表达 式 ， 完 成 决定 的 工作 。 
// 找到 一 个 公共 子 表达 式 ， 消 除 它 。 


unsigned CSVN = VNT.lookup(MI); 


MachineInstr *CSMI = Exps[CSVN]; 


DEBUG(dbgs() «« "Examining: " «« *MI); 
DEBUG(dbgs() «« "*** Found a common subexpression: " «« 


*CSMI); 


// 检查 这 个 CSE 的 收益 性 


J 


bool DoCSE = true; 
unsigned NumDefs = MI->getDesc().getNumDefs() + 
MI->getDesc().getNumImplicitDefs(); 


for (unsigned i = 0, e = MI->getNumOperands(); NumDefs 
&& i != e; ++i) { 
MachineOperand &MO = MI-»getOperand(i); 
if (!MO.isReg() || !MO.isDef()) 
continue; 
unsigned OldReg = MO.getReg(); 
unsigned NewReg = CSMI-»getOperand(i).getReg(); 


// 如 果 MI 中 的 定义 有 用 ， 为 了 保证 它 在 CSMI 中 也 有 用 ， 遍 历 隐 式 CSMI 和 MI 的 
定义 


if (MO.isImplicit() && !MO.isDead() && CSMI-»getOperand(i). 


isDead()) 
ImplicitDefsToUpdate.push back(i); 
if (OldReg == NewReg) { 
- NumDefs; 


continue; 


assert(TargetRegisterInfo::isVirtualRegister(OldReg) 

&& 
TargetRegisterInfo::isVirtualRegister(NewReg) 

&& 


"Do not CSE physical register defs!"); 


if (!isProfitableToCSE(NewReg, OldReg, CSMI, MI)) { 
DEBUG(dbgs() «« "*** Not profitable, avoid 
CSE!\n"); 
DoCSE = false; 


break; 


的 指令 不 能 存在 于 新 的 指令 的 寄存 器 类 中 ， 不 执行 CSE 


// WR 


const TargetRegisterClass *OldRC - 


>getRegClass(OldReg) ; 
if (!MRI->constrainRegClass(NewReg, OldRC)) { 
DEBUG(dbgs() << "*** Not the same register class, 
avoid CSE!\n"); 
DoCSE - false; 
break; 
} 
CSEPairs.push back(std::make pair(OldReg, NewReg)); 


- NumDefs; 


// 实际 执行 消除 


MRI- 


if (DoCSE) ( 
for (unsigned i = 0, e = CSEPairs.size(); i !- e; 
++i) T 
MRI->replaceRegwith(CSEPairs[i].first, CSEPairs[i]. 
second); 


MRI-»clearKillFlags(CSEPairs[i].second); 


// 如 果 MI 中 的 定义 有 用 ， 为 了 保证 它 在 CSMI 中 也 有 用 ， 遍 历 隐 式 CSMI 和 MI 的 


定义 


for (unsigned i = 0, e - ImplicitDefsToUpdate.size(); 
i != e; ++i) 
CSMI->getOperand(ImplicitDefsToUpdate[i]). 


setIsDead(false); 


if (CrossMBBPhysDef) { 
// 向 MBB Livein 表 增加 物理 寄存 器 定义 
while (!PhysDefs.empty()) ( 


unsigned LiveIn - PhysDefs.pop back val(); 
if (!MBB-»isLiveIn(LiveIn)) 
MBB-»-addLivelIn(LiveIn); 
} 


++NumCrossBBCSEs; 
} 
MI->eraseFromParent(); 
++NumCSEs; 


if (!PhysRefs.empty() ) 


++NumPhysCSEs; 
if (Commuted) 
++NumCommutes; 
Changed = true; 
} else { 
VNT.insert(MI, CurrVN++); 
Exps.push back(MI); 
} 
CSEPairs.clear(); 


ImplicitDefsToUpdate.clear(); 


return Changed; 


4. 我 们 来 仔细 看 一 下 判断 合法 性 和 收益 性 以 决定 CSE 的 函数 : 


bool MachineCSE::isCSECandidate(MachineInstr *MI) { 
// 如 有 果 机 器 指令 是 PHI， 或 者 内 联 汇编 ， 或 者 隐 式 定义 ， 不 进行 CSE 


if (MI->isPosition() || MI->isPHI() || MI- 
>isImplicitDef() || MI->iskill() || 
MI->isInlineAsm() || MI-»isDebugValue()) 


return false; 


// 忽略 复制 
if (MI->isCopyLike()) 


return false; 


// 忽略 我 们 显然 不 能 移动 的 指令 
if (MI->mayStore() || MI->isCall() || MI-»isTerminator() 
|| MI->hasUnmodeledSideEffects() ) 


return false; 


if (MI->mayLoad()) { 

// 好 的 ， 这 个 指令 执行 了 一 次 加 载 。 为 了 更 精确 一 点 ， 我 们 让 目标 平台 决定 这 
个 被 加 载 的 

// 值 是 否 为 一 个 常量 。 如 果 是 ， 我 们 束 将 它 作 为 一 次 加 载 使 用 。 

if (!MI->isInvariantLoad(AA)) 


return false; 


j 


return true; 


5. 收益 性 函数 代码 如 下 : 


bool MachineCSE::isProfitableToCSE(unsigned CSReg, unsigned 
Reg, 


MachineInstr *CSMI, MachineInstr *MI) { 


// 如 果 CSReg 被 所 有 的 寄存 器 使 用 ， 不 应 该 执行 CSE， 否 则 会 增加 CSReg 的 寄存 
di Hs 7] 


bool MayIncreasePressure - true; 


if (TargetRegisterInfo::isVirtualRegister(CSReg) && 


TargetRegisterInfo::isVirtualRegister(Reg)) { 
MayIncreasePressure - false; 
SmallPtrSet«MachineInstr*, 8» CSUses; 

for (MachineInstr &MI 
>use_nodbg_instructions(CSReg)) { 

CSUses. insert (&MI) ; 

} 
for (MachineInstr &MI : MRI- 


>use_nodbg_instructions(Reg)) 


{ 
if (!CSUses.count(&MI)) { 
MayIncreasePressure - true; 
break; 
} 
} 
} 


if (!MayIncreasePressure) return true; 


E 


// 局 发 规则 #1: ”如 果 定 义 不 在 本 地 ， 也 不 在 紧邻 的 前 驱 ， 并 且 计 


时 和 


么 不 进行 CSE 。 
// 否则 会 增加 寄存 器 压力 ， 甚 至 导致 其 他 计算 的 溢出 。 
if (TII->isAsCheapAsAMove(MI)) { 


MachineBasicBlock *CSBB = CSMI-»getParent(); 
MachineBasicBlock *BB - MI-»getParent(); 
if (CSBB != BB && !CSBB-»-isSuccessor(BB)) 


return false; 


MRI- 


民 小 ， 那 


// 局 发 规则 #2: 如 果 表 达 式 不 使 用 虚拟 寄存 器 ， 并 且 唯 一 的 见 余 计算 是 复制 ， 


进行 CSE。 
bool HasVRegUse = false; 
for (unsigned i = ©, e = MI->getNumOperands(); i !- e; 
++i) { 
const MachineOperand &MO = MI-»getOperand(i); 
if (MO.isReg() && MO.isUse() && 
TargetRegisterInfo::isVirtualRegister(MO.getReg())) 


HasVRegUse - true; 


break; 


} 
if (!HasVRegUse) { 
bool HasNonCopyUse - false; 
for (Machinelnstr &MI : MRI- 
»use nodbg instructions(Reg)) { 
// 忽略 复制 
if (!MI.isCopyLike()) ( 
HasNonCopyUse - true; 


break; 


3 
if (!HasNonCopyUse) 


return false; 


// 局 发 规则 #3: 如 果 公共 子 表达 式 被 PHI 使 用 ， 那 么 除非 该 定义 在 新 使 用 的 BB 
中 已 使 用 ， 

// 否则 不 再 使 用 它 

bool HasPHI = false; 


SmallPtrSet«MachineBasicBlock*, 4» CSBBs; 
for (Machinelnstr &MI : MRI- 
>use_nodbg_instructions(CSReg)) { 
HasPHI |= MI.isPHI(); 


CSBBs.insert(MI.getParent()); 


if (!HasPHI) 
return true; 


return CSBBs.count(MI-»getParent()); 


工作 原理 


MachineCSEPass 作 用 于 机 需 码 函数 。 它 获取 DomTree 的 信息 ， 会 
以 深度 优先 搜索 的 方式 遍历 DomTree， 以 MachineBasicBlock 为 节点 创 
建 工作 列表 ;然后 对 其 中 的 每 一 个 区 块 进 行 CSE。 在 每 一 个 区 块 中， 
它 过 历 所 有 的 指令 ， 检 查 是 否 能 够 进行 CSE。 然 后 会 检查 消除 元 余 表 
达 式 的 收益 性 。 一 旦 证 明 进 行 CSE 消 除 具有 收益 性 ， 它 会 把 对 应 的 
MachineInstruction 类 从 MachineBasicBlock 类 消除 ， 同 时 也 会 进行 一 个 


简单 的 机 器 指令 的 复写 传播 。 有 些 时 候 ，MachineInstruction 可 能 没 办 
法 在 初始 步骤 进行 CSE， 但 在 一 次 复写 传播 之 后 承 能 够 进行 CSE 了 。 
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KR FSSAFER HL ar SS Hot, BAL ae tS 7c HANAB IH BR Pass HJ SE 
EM, i5 U lib/CodeGen/DeadMachineInstructionElim.cpp <4 © 


活动 周期 分 析 


本 市 介绍 寄存 器 分 配 。 在 此 之 前 ， 你 必须 了 解 什 么 是 活动 变量 和 
活动 周期 。 活 动 周期 ， 指 的 是 一 个 变量 的 活动 范围 ， 即 变量 的 第 一 次 
定义 到 最 后 一 次 使 用 的 范围 。 为 此 ， 我 们 需要 计算 一 条 指令 之 后 不 再 
使 用 的 寄存 器 集 合 ， 即 变量 的 最 后 一 次 使 用 ， 以 及 一 条 指令 使 用 但 接 
下 来 的 指令 不 使 用 的 寄存 右 集 合 。 我 们 计算 函数 中 每 个 虚拟 寄存 器 和 
每 个 物理 寄存 器 的 活动 变量 信息 。SSA 能 够 大 致 计算 虚拟 寄存 器 的 活 
动 信息 ， 我 们 只 需 记 录 区 块 中 物理 寄存 种 的 信息 。 在 寄存 硕 分 配 之 
前 ，LLVM 假 定 物 理 寄存 器 只 存在 于 一 个 单一 的 基本 块 之 内 ， 这 种 假 
定 使 得 只 需要 对 每 一 个 基本 块 进行 一 次 局 部 分 析 束 能 计算 物理 寄存 秦 
的 生命 周期 。 在 执行 活动 变量 分 析 之 后 ， 我 们 便 有 了 执行 活动 周期 分 
析 和 构建 活动 周期 所 必需 的 信息 。 为 此 我 们 自 和 完 为 基本 块 和 机 器 指令 
标号 ， 在 处 理 共享 寄存 器 的 变量 之 后 ， 通 常会 处 理 寄存 器 中 的 参数 。 
虚拟 寄存 器 的 活动 周期 按照 机 絮 指 令 的 顺序 计算 (1,N)。 活 动 周期 (i,j) 
指 的 是 一 个 变量 的 活动 范围 ， 并 且 1 <=i<=j<N。 


本 厄 通 过 一 个 样 例 程序 来 展示 如 何 列 举 程序 中 的 活动 周期 ， 以 及 
LLVM 如 何 来 计算 这 些 活动 周期 。 


准备 工作 


开始 之 前 ， 我 们 需要 一 段 用 于 活动 周期 分 析 的 测试 代码 ， 为 了 简 
单 起 见 ， 我 们 使 用 C 语 言 代码 ， 然 后 转 为 LLVM IR © 


1. 首先 编写 一 段 包含 计 else 区 块 的 测试 程序 : 


$ cat interval.c 
void donothing(int a) { 


return; 


int func(int i) ( 

int a = 5; 

donothing(a); 

int m =a; 

donothing(m); 

a = 9; 

if (i < 5) { 
int b = 3; 
donothing(b); 
int z = b; 


donothing(z); 


else ( 
int k = a; 


donothing(k); 


return m; 


2. 使 用 Clang 把 C 语 言 代 码 转 为 IR， 用 cat 命 令 查看 生成 的 IR: 


$ clang -cc1 -emit-llvm interval.c 


$ cat interval.11 
; ModuleID - 'interval.c' 
target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128" 


target triple - "x86 64-unknown-linux-gnu" 


; Function Attrs: nounwind 

define void @donothing(i32 %a) #0 { 
%1 = alloca i32, align 4 
store i32 %a, 132* %1, align 4 


ret void 


; Function Attrs: nounwind 


define i32 Qfunc(i32 %i) #0 { 
%1 = alloca 132, align 
%a = alloca 132, align 
%m = alloca 132, align 
%b = alloca 132, align 


%z = alloca 132, align 


^ A A A A RA 


%k = alloca 132, align 
store i32 %i, 132* %1, align 4 
store i32 5, 132* %a, align 4 
%2 = load 132, 132* %a, align 4 
call void Qdonothing(i32 %2) 

%3 = load 132, 132* %a, align 4 
store i32 %3, 132* %m, align 4 
%4 = load 132, 132* %m, align 4 
call void @donothing(i32 %4) 
store 132 9, 132* %a, align 4 
%5 = load 132, 132* %1, align 4 
%6 = icmp slt i32 %5, 5 


br i1 %6, label %7, label %11 


; <label>:7 ; preds - %0 
store i32 3, 132* %b, align 4 
%8 = load 132, 132* %b, align 4 
call void Qdonothing(i32 %8) 

%9 = load 132, 132* %b, align 4 
store i32 %9, 132* %z, align 4 


%10 = load 132, i32* %z, align 4 


call void @donothing(i32 %10) 
br label %14 


; <label>:11 ; preds = %0 
%12 = load 132, i32* %a, align 4 
store i32 %12, 132* %k, align 4 
%13 = load 132, 132* %k, align 4 
call void Qdonothing(i32 %13) 

br label %14 


; «label»:14 ; preds = %11, %7 
%15 = load i32, i32* %m, align 4 


ret i32 %15 


attributes #0 = { nounwind "less-precise-fpmad"="false" 


"no-frame-pointer-elim"="false" "no-infs-fp-math"="false" 


"no-nans-fp-math"="false" "no-realign-stack" "stack- 


protector-buffer-size"="8" "unsafe-fp-math"="false" "use- 


soft-float"="false" } 


!llvm.ident = !{!0} 


10 = !{!"clang version 3.7.0 (trunk 234045)"} 


详细 步骤 


1. 为 了 列 出 活动 周期 ， 我 们 需要 为 LiveIntervalAnalysis.cpp 文 件 增 
加 一 段 代 码 来 输出 活动 周期 。 我 们 增加 以 下 内 容 (增加 的 代码 用 + 号 
标记 ) : 


void LiveIntervals::computeVirtRegInterval(LiveInterval 
&LI) { 

assert(LRCalc && "LRCalc not initialized."); 

assert(LI.empty() && "Should only compute empty 
intervals."); 

LRCalc-»reset(MF, getSlotIndexes(), DomTree, 
&getVNInfoAllocator()); 

LRCalc->calculate(LI, MRI- 
>shouldTrackSubRegLiveness(LI.reg)); 


computeDeadValues(LI, nullptr); 


genen 增加 以 下 代码 ****/ 


+ llvm::outs() << WAKKKKKKKKKK INTERVALS Tots m EN S 


// 输出 regunits 


* for (unsigned i - 0, e - RegUnitRanges.size(); i !- e; 
++1) 
+ if (LiveRange *LR = RegUnitRanges[i]) 
+ llvm::outs() << PrintRegUnit(i, TRI) << ' ' << *LR 


<< 'An'; 


// 输出 虚拟 寄存 如 


+ llvm::outs() << "virtregs:"; 


+ for (unsigned i = 0, e = MRI->getNumVirtRegs(); i !- e; 
++i) 4 
+ unsigned Reg = TargetRegisterInfo::index2VirtReg(i); 
* if (hasInterval(Reg)) 
+ llvm::outs() << getInterval(Reg) << '\n'; 
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2. 在 修改 之 前 的 源码 文件 之 后 重新 构建 LLVM， 并 在 路 径 下 安 


Be ° 


3. 使 用 lc 命令 编译 IR 格 式 的 测试 代码 ， 会 得 到 以 下 的 活动 周期 : 


$ llc interval.11 

*ckckckck ke kk kk INTERVALS 淡淡 淡淡 淡淡 淡淡 类 类 
virtregs:%vreg0 [16r,32r:0) 016r 
*ckckckck ke kk kk INTERVALS *ckckck ke ke kk kk 
virtregs:%vreg0 [16r,32r:0) 0@16r 
kkkkkkkkkk INTERVALS kkkkkkkkkk 
virtregs:%vregO [16r,32r:0) 0@16r 
%vreg1 [80r,96r:0) O@8Or 

淡淡 淡淡 淡淡 淡淡 类 类 INTERVALS kkkkkkkkkk 
virtregs:%vreg0 [16r,32r:0) 0@16r 
%vreg1 [80r,96r:0) 0080r 

%vreg2 [144r,192r:0) 0@144r 


淡淡 淡淡 淡淡 淡淡 火炎 INTERVALS kkkkkkkkxkk 


virtregs:%vreg0 [16r,32r:0) 0@16r 
%vreg1 [80r,96r:0) 0080r 

%vreg2 [144r,192r:0) 0@144r 

%vreg5 [544r,592r:0) 0@544r 

*ckckck ke ke kk kk INTERVALS kkkkkkkkkk 
virtregs:%vreg0 [16r,32r:0) 0@16r 
%vreg1 [80r,96r:0) 0080r 

%vreg2 [144r,192r:0) 0@144r 

%vreg5 [544r,592r:0) 0@544r 

%vreg6 [352r,368r:0) 0@352r 

淡淡 淡淡 淡淡 淡淡 类 类 INTERVALS kkkkkkkkkk 
virtregs:%vreg0 [16r,32r:0) 0@16r 
%vreg1 [80r,96r:0)  0080r 

%vreg2 [144r,192r:0) 0@144r 

%vreg5 [544r,592r:0) 0@544r 

%vreg6 [352r,368r:0) 0@352r 

%vreg7 [416r,464r:0) 0@416r 

*ckckckc ke ke kk kk INTERVALS *ckckck ke ke kk kk 
virtregs:?wvregO [16r,32r:0) 0@16r 
%vreg1 [80r,96r:0) 0080r 

%vreg2 [144r,192r:0) 0@144r 

%vreg5 [544r,592r:0) 0@544r 

%vreg6 [352r,368r:0) 0@352r 

%vreg7 [416r,464r:0) 0@416r 


%vreg8 [656r,672r:0) 00656r 


工作 原理 


前 面 的 例子 中 展示 了 活动 周期 是 如 何 与 每 一 个 虚拟 寄存 器 关联 起 
来 的 。 活 动 周期 的 开始 和 结束 用 括号 标记 。 活 动 周期 的 计算 是 从 
LiveVariables::runOnMachineFunction (MachineFunction &mf) EN 数 FF 
te ， 它 位 于 lib/Code Gen/LiveVariables.cpp 文件 ， 它 通过 
HandleVirtRegUse 和 HandleVirtRegDef 范 数 来 计算 寄存 器 的 定义 和 使 
用 ， 之 后 通过 getVarInfo 芳 数 得 到 给 定 虚 拟 寄存 器 的 VarInfo 对 象 。 


LiveInterval 和 LiveRange 类 定义 于 LiveInterval.cpp 中 。 通 过 它们 可 
以 获得 变量 活动 周期 的 信息 ， 以 便 检 查 活 动 周期 是 否 重 琶 。 


在 LiveIntervalAnalysis.cpp 文 件 中 ， 实 现 了 活动 周期 分 析 的 Pass , 
它 以 DFS 的 顺序 扫描 基本 块 (以 线性 方式 组 织 ) ， 为 每 个 虚拟 寄存 器 
和 物理 寄存 器 创建 活动 周期 。 之 后 这 些 分 析 会 被 寄 存 器 分 配器 使 用 ， 


第 8 章 的 草 市 会 讨论 这 个 问题 。 
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e 如 采 你 想 知 道 不 同 基本 块 的 虚拟 寄存 器 是 如 何 产生 的 ， 或 者 想 看 
看 这 些 虚 拟 寄 存 器 的 生命 周期 ， 你 可 以 使 用 -debug-only=regalloc 
命令 行 参数 运行 lc 工具 来 编译 测试 实例 。 当 然 ， 你 需要 debug 版 本 
的 LLVM 。 

。 天 于 活动 周期 的 更 多 信息 ， 请 参见 以 下 这 些 代码 文件 。 

= lib/CodeGen/Livelnterval.cpp 


= lib/CodeGen/LiveIntervalAnalysis.cpp 


= lib/CodeGen/LiveVariables.cpp ° 
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旨 在 最 大 化 分 配给 虚拟 寄存 着 的 物理 寄存 万 数 量 。 


HE 


本 节 介 绍 在 LLVM 中 寄存 器 如 何 表示 ， 更 改 寄存 器 信息 的 详细 步 
又 以 及 内 建 的 寄存 器 分 配器 。 


准备 工作 


你 需要 构建 并 安 逆 LLVM。 


详细 步骤 


1. build-folder/lib/Target/X86/X86GenRegisterInfo.inc 文 件 的 前 几 行 
展示 了 在 LLVM 中 寄存 器 如 何 表 示 ， 可 以 看 到 ， 寄 存 器 用 整数 来 表 
ZR: 


namespace X86 ( 
enum 1 
NoRegister, 


AH = 1, 


2. 对 于 具有 Oe SHS RG, nl AEB 
^" IR T3 AY RegisterInfo.td SC (FOR T EX EE RN ui oe TLR Ke A 
lib/Target/X86/X86RegisterInfo.td X. F ° 下 面 的 代码 厂 段 展示 了 EAX、 
AX、AL 让 寄存 器 其 实 是 互 为 别名 (共享 ) 的 (我 们 只 提 及 了 最 小 的 
寄存 器 别名 ) 


def AL : X86Reg<"al", 0»; 
def DL : X86Reg«"dl", 2»; 
def CL : X86Reg«'cl", 1»; 
def BL : X86Reg«"bl", 3»; 


def AH : X86Reg<"ah", 4»; 
def DH : X86Reg<"dh", 6»; 
def CH : X86Reg<"ch", 5»; 
def BH : X86Reg<"bh", 7»; 


def AX : X86Reg\<"ax", 0, \[AL,AH]>; 


def DX : X86Reg\<"dx", 2, \[DL,DH]>; 
def CX : X86Reg\<"cx", 1, \[CL,CH]>; 
def BX : X86Reg\<"bx", 3, \[BL,BH]>; 


// 32 位 寄存 器 

let SubRegIndices = [sub 16bit] in ( 

def EAX : X86Reg<"eax", ©, [AX]>, DwarfRegNum<[-2, 0, 0]»; 
def EDX : X86Reg<"edx", 2, [DX]», DwarfRegNum<[-2, 2, 2]>; 
def ECX : X86Reg<"ecx", 1, [CX]>, DwarfRegNum<[-2, 1, 1]>; 


def EBX : X86Reg<"ebx", 3, [BX]>, DwarfRegNum<[-2, 3, 3]>; 
def ESI : X86Reg<"esi", 
def EDI : X86Reg<"edi", 7, [DI]>, DwarfRegNum<[-2, 7, 7]>; 
; 5]>; 
def ESP : X86Reg<"esp", 


, [SP]>, DwarfRegNum<[ -2, 


0 
2 
1 
3 
, [SI]>, DwarfRegNum<[-2, 6, 6]>; 
7 
4 
5, 4]>; 
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3 
6 
7 
def EBP : X86Reg<"ebp", 5, [BP]>, DwarfRegNum<|[ -2, 
4 
0 


def EIP : X86Reg<"eip", ©, [IP]>, DwarfRegNum<[-2, 8, 8]>; 


3. Jy ZE nl eas FRE, nl DL f ETargetRegisterInfo.td 
文件 中 把 一 些 寄存 器 注释 挤 ， 这 是 RegisterClass 最 后 的 参数 。 打 开 
X86Register Info.cpp 文 件 把 AH、CH、DH 寄 存 器 删 掉 : 


def GR8 : RegisterClass<"X86", [i18], 8, 
(add AL, CL, DL, AH, CH, DH, BL, 
BH, SIL, DIL, BPL, SPL, 
R8B, R9B, R10B, R11B, R14B, 


R15B, R12B, R13B)> { 


4. 在 构建 LLVM 的 时 候 ，.inc 文 件 会 首先 被 改变 ， 它 们 将 不 再 包含 
AH、CH、DH 寄 存 器 。 


5. 在 “活动 周期 分 析 ” 一 世 中 我 们 执行 了 活动 周期 分 析 ， 现 在 我 们 

使 用 那 一 节 的 测试 代码 ， 运 行 LLVM 提 供 的 不 同 的 寄存 器 分 配 技术 

(fast、basic、greedy、pbqp) ， 在 这 里 我 们 运行 其 中 的 两 个 并 比较 其 
结果 : 


$ llc -regalloc-basic interval.ll -o intervalregbasic.s 


然后 创建 intervalregbasic.s 文 件 : 


$ cat intervalregbasic.s 

.text 

.file 

"interval.11" 

.globl donothing 

.align 16, 0x90 

.type donothing,@function 
donothing: 4 @donothing 
4 BB#O: 

movl %edi, -4(%rsp) 

retq 
. Lfunc_endo: 


.size donothing, .Lfunc end0-donothing 


.globl func 
.align 16, 0x90 
.type func,@function 
func: # @func 
# BB#O: 
subq $24, %rsp 
movl %edi, 20(%rsp) 
movl $5, 16(%rsp) 
movl $5, %edi 
callq donothing 
movl 16(%rsp), %edi 
movl %edi, 12(%rsp) 
callq donothing 
movl $9, 16(%rsp) 
cmpl $4, 20(%rsp) 
jg .LBB1 2 
4 BB#1: 
movl $3, 8(%rsp) 
movl $3, %edi 
callq donothing 
movl 8(%rsp), %edi 
movl %edi, 4(%rsp) 
jmp .LBB1 3 
.LBB1 2: 
movl 16(%rsp), %edi 
movl %edi, (%rsp) 


.LBB1 3: 


callq donothing 
movl 12(%rsp), %eax 
addq $24, %rsp 
retq 

.Lfunc end1: 


‚size func, .Lfunc endi-func 


运行 以 下 命令 ， 比 较 两 个 文件 : 


$ llc -regalloc-pbqp interval.ll -o intervalregpbqp.s 


得 到 intervalregbqp.s 文 件 : 


$cat intervalregpbqp.s 

.text 

.file “interval.11” 

.globl donothing 

.align 16, 0x90 

.type donothing, Qfunction 
donothing #@donothing 
# BB#O: 

movl %edik %eax 

movl %eax, -1(%rsp) 


retq 


.Lfunc endO: 


‚size donothing, .Lfunc end0-donothing 


.globl func 
.align 16, 0x90 
.type func, @function 
Func: #@func 
# BB#0: 
subg $23, %rsp 
movl %edi, %eax 
movl %eax, 20(%rsp) 
movl %5, 16(%rsp) 
movl %5, %edi 
callq donothing 
movl 16(%rsp), %eax 
movl %eax, 12(%rsp) 
movl %eax, %edi 
callq donothing 
movl $9, 16(%rsp) 
cmpl $4, 20(%rsp) 
jg .LBB1 2 
4 BB#1: 
movl $3, 8(%rsp) 
movl $3, %edi 
callq donothing 
movl 8(%rsp), %eax 


movl %eax, 4(%rsp) 


jmp.LBB1 3 
.LBB1 2: 
movl 16(%rsp), %eax 
movl %eax, (%rsp) 
.LBB1 3: 
movl %eax, %edi 
callq donothing 
movl 12(%rsp), %eax 
addq $24, %rsp 
retq 
.Lfunc end1: 


.Size func, .Lfunc end1-func 


6. 现在 ， 用 diff 工 具 并 排比 较 两 个 汇编 码 。 


工作 原理 


从 虚拟 寄存 器 到 物理 寄存 器 的 映射 有 两 种 方式 。 


。 直接 映射 : 使 用 TargetRegisterInfo 和 MachineOperand 类 。 在 这 种 
方式 下 ， 开 发 者 需要 提供 加 载 和 存储 指令 的 插入 位 置 ， 以 获得 和 
存储 内 存 中 的 值 。 

。 间接 映射 : 使 用 VirtRegMap 类 来 插入 加 载 和 存储 指令 ， 以 获得 和 
存储 内 存 中 的 值 。 使 用 VirtRegMap::assignVirt2Phys(vreg, preg) EA 
数 来 实现 从 虚拟 寄存 器 到 物理 寄存 右 的 映射 。 
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如 分 配 的 实现 ， 分 别 有 4 种 将 虚拟 寄存 器 映射 到 物理 寄存 器 的 算法 。 在 
这 里 不 再 次 述 算法 的 细 市 ， 如 果 对 此 有 兴趣 ， 可 以 参见 下 一 条 。 


FDD 


。 天 于 LLVM 中 的 更 多 算法 ， 请 参见 lib/CodeGen/ 目 孙 中 的 源码 : 
= Lib/CodeGen/RegAllocBasic.cpp 
= Lib/CodeGen/RegAllocFast.cpp 
= Lib/CodeGen/RegAllocGreedy.cpp 
= Lib/CodeGen/RegAllocPBQP.cpp 


插入 头 尾 代 码 


揪 入 头 尾 (prologue-epilogue) 代码 包括 栈 展开 、 完 成 函数 布局 、 
保存 被 调用 者 保存 (callee-saved) 寄存 器 、 发 射 头 尾 代码 。 除 此 之 
外 ， 它 也 会 把 抽象 栈 幅 索引 替换 为 适当 的 引用 。 这 个 Pass 在 寄存 句 分 
配 阶 段 之 后 运行 。 


详细 步骤 


H 


基本 框架 和 重要 函数 定义 于 PrologueEpilogueInserter 类 ， 如 下 : 


。 头 尾 代 码 插 入 器 Pass 作 用 于 机 器 加 数 ， 因 此 它 继承 了 
MachineFunctionPass 类 ， 它 的 构造 函数 初始 化 这 个 Pass: 


class PEI 


public: 


public MachineFunctionPass { 


static char ID; 


PEI() 


: MachineFunctionPass(ID) ( 


initializePEIPass(*PassRegistry::getPassRegistry()); 


。 类 中 定义 了 多 个 辅助 画 数 ， 用 于 插入 头 尾 代码 : 


void 
void 
void 
void 
void 
void 


void 


calculateSets(MachineFunction &Fn); 
calculateCallsInformation(MachineFunction &Fn); 
calculateCalleeSavedRegisters(MachineFunction &Fn); 
insertCSRSpillsAndRestores(MachineFunction &Fn); 
calculateFrameObjectOffsets(MachineFunction &Fn); 
replaceFrameIndices(MachineFunction &Fn); 


replaceFrameIndices(MachineBasicBlock *BB, 


MachineFunction &Fn, 


void 


int &SPAdj); 


scavengeFrameVirtualRegs(MachineFunction &Fn); 


。 fe ASK ERISA ERX, insertPrologEpilogCode(): 


void insertPrologEpilogCode(MachineFunction &Fn); 


e 这 个 Pass 首 先 执行 rnOnFunction0 函 数 ， 代 码 中 的 注释 说 明了 它 
执行 的 多 个 操作 : 计算 调用 栈 大 小 、 调 整 栈 上 变量 、 为 调用 者 保 
FF ay FF arti A Yim (spil) 代码 、 计 算 实际 栈 帧 侦 移 、 为 函数 择 
AAEE ` H KR A E RRR | S: 


bool PEI::runOnMachineFunction(MachineFunction &Fn) { 
const Function* F - Fn.getFunction(); 
const TargetRegisterInfo *TRI = Fn.getSubtarget(). 
getRegisterInfo(); 
const TargetFrameLowering *TFI - Fn.getSubtarget(). 


getFrameLowering(); 


assert(!Fn.getRegInfo().getNumVirtRegs() && "Regalloc 


must assign all vregs"); 


RS = TRI-»requiresRegisterScavenging(Fn) ? new 
RegScavenger() : nullptr; 
FrameIndexVirtualScavenging = TRI- 
>requiresFrameIndexScavenging( 


Fn); 


首 除 伪 调 用 


一 < 


// 为 函数 的 帧 信息 计算 MaxCcalLIFrameSize 和 AdjustsSstack 变 量 ， 
代码 


calculateCallsInformation(Fn); 


// FERFEARN E EE, 例如 在 


calculateCalleeSavedRegistersZ Bi il 


// HusedPhysRegs 


TFI-»processFunctionBeforeCalleeSavedScan(Fn, RS); 
// 扫描 函数 ， 以 修改 调用 者 保存 寄存 器 ， 插 入 溢出 代码 


calculateCalleeSavedRegisters(Fn); 


// 确定 CSR 洲 出 /恢复 代码 的 位 置 ， 淤 出 代码 放 在 入 口 块 ， 恢 复 代 码 放 在 返回 块 。 


calculateSets(Fn); 


// 增加 保存 /恢复 调用 者 保存 寄存 器 的 相关 代码 
if (!F->hasFnAttribute(Attribute: :Naked) ) 


insertCSRSpillsAndRestores(Fn); 


// GERRIE ZA, foy 


F 目标 乎 台 对 函数 做 最 后 修改 


TFI-»processFunctionBeforeFrameFinalized(Fn, RS); 


// 为 所 有 抽象 栈 对 象 计 


真实 的 栈 帧 仿 移 


calculateFrameObjectOffsets(Fn); 


/ / TESTEN OS FEARS o HER ECHT 


因此 ,在 


// 这 个 函数 之 前 需要 调用 calculateCalleeSavedRegisters( ) 函 数 以 设置 


//AdjustsStack 和 MaxCallFrameSize 变 量 


为 任意 堆栈 变量 或 已 调用 函数 调整 所 需 栈 帧 。 


if (!F->hasFnAttribute(Attribute: :Naked) ) 


insertPrologEpilogCode(Fn); 


// 用 物理 


寄存 局 引 用 和 真实 的 偏 移 3 


替换 所 有 的 MO_FrameIndex 探 作 数 


replaceFrameIndices(Fn); 


// W3 


需要 寄存 器 清扫 (scavenge) ， 我 们 会 通过 post -pass 来 打扫 已 插入 的 
帧 索引 消除 
// 虚 拟 寄 存 器 


if (TRI->requiresRegisterScavenging(Fn) && 
FrameIndexVirtualScavenging ) 


scavengeFrameVirtualRegs(Fn); 


// 清理 


EE 虚拟 清扫 产生 的 任意 虚拟 寄存 器 
Fn.getRegInfo().clearVirtRegs(); 
// 超出 栈 大 小 限制 时 给 HH 


[I 


Aib. 
EPI 


MachineFramelnfo *MFI - Fn.getFrameInfo(); 
uint64 t StackSize = MFI->getStackSize(); 
if (WarnStackSize.getNumOccurrences() > 0 && 
WarnStackSize « StackSize) ( 


j 


DiagnosticInfoStackSize DiagStackSize(*F, StackSize); 
delete RS; 


F-»getContext().diagnose(DiagStackSize); 


ReturnBlocks.clear(); 
return true; 


e JEA AEREA E ER S IE insertPrologEpilogCodeQ KZ 9 EZ Ei E] 


用 TargetFrameLowering 对 象 ， 根 据 相 应 的 平台 为 函数 振 入 头 代 


码 。 对 于 函数 的 每 个 基本 块 ， 检 查 是 否 有 返回 语句 ， 寿 是 则 插入 
尾 代 码 。 


void PEI::insertPrologEpilogCode(MachineFunction &Fn) { 
const TargetFrameLowering &TFI = *Fn.getSubtarget(). 


getFrameLowering(); 


// 为 函数 插入 头 代 码 
TFI.emitPrologue(Fn); 


// AEB MIR KER PT AE URS RE BC] E DITE SER 


for (MachineFunction::iterator I - Fn.begin(), E 


Fn.end(); I !- E; ++I) { 


// 如 果 最 后 一 条 指令 是 return， 揪 入 尾 代 码 


if (!I->empty() && I->back().isReturn()) 


TFI.emitEpilogue(Fn, *I); 


// 如 果 有 必要 ， 发 射 额外 代码 以 支持 分 段 堆栈 。 在 这 种 情况 下 ， 链 接 到 一 个 文 
持 分 段 堆栈 

// 的 运行 时 《1Libgcc 就 是 其 中 之 一 ) ， 会 导致 在 多 个 小 块 地 址 分 配 栈 空间 ， 而 
不 是 连续 的 

// 大 块 内 存 。 

if (Fn.shouldSplitStack()) 


= 


TFI.adjustForSegmentedStacks(Fn); 


// 如 果 在 Erlang/0TP 运 行 时 加 载 了 HiPE 的 本 地 代码 ， 需 要 发 射 额 外 代码 来 显 


式 处 理 栈 。 
// 方法 和 分 段 堆栈 相似 ， 但 是 采用 了 不 用 的 条 件 检查 ， 以 及 另外 的 分 配 栈 空间 的 
BIF ° 


if (Fn.getFunction()->getCallingConv() == 
CallingConv::HiPE) 


TFI.adjustForHiPEPrologue(Fn); 


工作 原理 


前 面 的 代码 调 2d T TargetFrameLowering 类 的 emitEpilogue() 和 
emitProlo gue(0) 芳 数 ， 这 会 在 之 后 章节 的 特定 平台 栈 帧 lowering 做 解 
RE o 


代码 发 射 阶段 把 代码 生成 器 的 抽象 层 〈 例 如 MachineFunction ` 
MachineInstr 类 ) 降低 为 机 器 码 抽象 层 (例如 MCInst、MCStreamer 
K) 。 这 一 阶段 的 重要 类 有 平台 无 天 的 AsmPrinter 类 ， 特 定 平台 的 
AsmpPrinter 了 于 类 、TargetLoweringObjectFile 类 。 


机 器 码 (MC) 层 负责 发 射 由 标签 (label) 、 指 导 (directive) ^ 

站 令 组 成 的 对 象 文 件 ; 而 CodeGen 层 则 由 MachineFunctions ^ 
MachineBasicBlock、MachineIns tructions 组 成 。 这 一 阶段 的 关键 类 是 
MCStreamer 2$ , T HH YL 2m ak HJ APIZH pl, FH X 40 EmitLabel ^ 


EmitSymbolAttribute、SwitchSection 等 组 成 ， 直 接 与 上 述 的 汇编 层 指导 
相对 应 。 


为 目标 平台 发 射 代码 有 4 个 重要 的 工作 需要 实现 。 


为 目标 平台 定义 AsmPrinter 的 子 类 。 这 个 类 需要 实现 主要 的 
loweringfE2s, %MachineFunctions KZE 7j MC24 NE) » AsmPrinter 
基 类 提供 了 很 多 可 以 复 用 的 函数 和 例 程 来 帮助 构建 特定 平台 的 
AsmPrinter 类 ， 你 只 需要 复写 一 部 分 即 可 。 如 采 你 需要 为 你 的 平 
台 实 现 ELF、COFF 或 者 MachO 这 些 格式 ， 那 也 是 很 容易 的 ， 你 可 
以 从 TargetLoweringObjectFile 中 复 用 大 量 的 公共 逻辑 。 

实现 平台 的 指令 打印 机 (instruction printer) 。 指 令 打 印 机 输入 
MCInst 类 ， 并 以 文本 形式 输出 到 raw_ostream 类 中 。 大 部 分 打印 逻 
辑 可 以 在 .td 文件 中 直接 定义 ， 比 如 像 增 加 $dst 、$srcl ^ $src2;X 
样 ， 但 是 你 仍然 需要 实现 打印 操作 数 (operands) 的 部 分 。 
你 还 需要 将 MachineInstr 类 转化 成 MCInst 类 。 这 一 过 程 一 般 在 
<target>MCInstLower.cpp 文 件 中 实现 。 癌 底层 指令 转化 的 过 程 通 
常 是 平台 相关 的 ， 并 且 需 要 将 跳 转 表 、 常 量 池 索 引 、 全 局 变量 地 
址 等 这 些 上 层 的 概念 统统 转化 成 对 应 的 MCLables。 这 一 步 也 需要 
将 一 些 伪 指 令 (pseudo ops) 用 真正 的 机 器 指令 蔡 代 。 最 终生 成 的 
MCInsts， 束 可 以 用 来 编码 或 打印 成 文本 形式 的 汇编 码 。 

如 宁 你 想 直 接 文 持 .o 文 件 的 输出 ， 或 者 实现 上 自己 的 汇编 右 ， 你 可 
以 实现 一 个 MCCodeEmitter 的 子 类 ， 它 的 任务 是 将 MCInsts 转 化 成 
机 器 码 字 节 流 (code bytes) 并 进行 重 定位 (relocations) 


详细 步骤 


我 们 A 看 lib/CodeGen/AsmPrinter/AsmPrinter.cpp X. 件 的 
AsmpPrinter 基 类 的 一 些 重要 函数 。 


。 EmitLinkage(): 这 个 函数 发 射 给 定 函 数 和 变量 的 链接 。 


void AsmPrinter::EmitLinkage(const GlobalValue *GV, 


MCSymbol *GVSym) const ; 
。 EmitGlobalVarible(): 这 个 函数 给 .s 文 件 发 射 指定 的 全 局 变量 。 
void AsmPrinter::EmitGlobalVariable(const GlobalVariable *GV); 
e EmitFunctionHeader(): 这 个 函数 发 射 当 前 函数 的 函数 头 。 
void AsmPrinter::EmitFunctionHeader(); 
。 EmitFunctionBody(): 这 个 函数 发 射 函 数 体 。 


void AsmPrinter::EmitFunctionBody(); 


。 EmitJumpTableInfo(): 这 个 函数 发 射 当 前 函数 跳 转 表 的 汇编 表示 
到 当前 的 输出 流 。 


void AsmPrinter::EmitJumpTableInfo(); 


e EmitJumpTableEntry(): IXA EH BLA FE MachineBasicBlock25 4) 
函数 跳 转 表 条 目 到 当前 流 。 


void AsmPrinter::EmitJumpTableEntry(const 
MachineJumpTableInfo *MJTI, const MachineBasicBlock *MBB, 


unsigned UID) const; 


e EmitInt(): 这 个 函数 发 射 8 位 、16 位 、32 位 整数 。 


void AsmPrinter::EmitInt8(int Value) const { 


OutStreamer.EmitlIntValue(Value, 1); 


void AsmPrinter::EmitInti6(int Value) const { 


OutStreamer.EmitlIntValue(Value, 2); 


void AsmPrinter::EmitInt32(int Value) const { 


OutStreamer.EmitIntValue(Value, 4); 


大 于 代码 发 射 的 具体 实现 ， 可 以 参见 
lib/CodeGen/AsmpPrinter/AsmPrinter.cpp 文 件 。 需 要 注意 的 一 件 很 重要 的 
事 是 ， 这 个 类 使 用 OutStreamer 类 的 实例 来 输出 汇编 指令 。 而 特定 平台 
的 代码 发 射 将 会 在 之 后 的 章节 介绍 。 


尾 调用 优化 


本 节 介 绍 LLVM 的 尾 调 用 优化 。 尾 调用 优化 指 的 是 被 调 函 数 不 创 
建新 的 栈 帧 ， 而 是 重用 主 调 函 数 的 栈 空 间 ， 因 此 减少 了 栈 空 间 的 使 
用 ， 也 减少 了 相互 递归 函数 返回 的 开销 。 


准备 工作 
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e Zille LA ° 
e tailcallopt 选 项 必须 可 用 。 
。 测 试 代码 包含 尾 调用 。 


详细 步骤 


1. 检查 尾 调用 优化 的 测试 代码 : 


$ cat tailcall.ll 
declare fastcc i32 @tailcallee(i32 inreg %a1, i32 inreg %a2, 
132 %a3, 132 %a4) 
define fastcc i32 Qtailcaller(i32 %in1, i32 %in2) { 
%11 = add i32 %in1, %in2 
%tmp = tail call fastcc i32 Qtailcallee(i32 inreg %in1, i32 
inreg %in2, 
132 %in1, 132 %11) 


ret 132 %tmp 


2. 使 用 -tailcallopt 选 项 运行 lic 工具 ， 编 译 测试 代码 ， 产 生 尾 调用 优 
化 过 的 汇编 文件 : 


$ llc -tailcallopt tailcall.11 


3. 输出 的 汇编 码 为 : 


$ cat tailcall.s 
.text 
.file "tailcall.ll" 
.globl tailcaller 
.align 16, 0x90 
.type tailcaller, @function 
tailcaller: # @tailcaller 
.cfi_startproc 
# BB#O: 
pushq %rax 
.Ltmpo: 
.Cfi def cfa offset 16 
# kill: ESI<def> ESI<kill> RSI<def> 
# kill: EDI<def> EDI<kill> RDI<def> 
leal (%rdi,%rsi), %ecx 
# kill: ESI<def> ESI<kill> RSI<kill> 
movl %edi, %edx 
popq %rax 
jmp tailcallee # TAILCALL 
. Lfunc_endo 


‚size tailcaller, .Ltmpi-tailcaller 


.cfi endproc 


.section ".note.GNU-stack","",@progbits 


4. 不 使 用 -tailcallopt 选 项 调用 llc 工 具 编译 ， 再 次 得 到 汇编 码 : 


$ llc tailcall.ll -o tailcalli.s 


5. 使 用 cat 命 令 输出 : 


$ cat tailcalli.s 
.text 
.file "tailcall.11" 
.globl tailcaller 
.align 16, 0x90 
.type tailcaller,Qfunction 
tailcaller: 4 Qtailcaller 
.cfi startproc 
4 BB#O: 
# kill: ESI<def> ESI<kill> RSI<def> 
# kill: EDI<def> EDI<kill> RDI<def> 
leal (%rdi,%rsi), %ecx 
# kill: ESI<def> ESI<kill> RSI<kill> 


movl %edi, %edx 


jmp tailcallee # TAILCALL 
.Lfunc endO: 

‚size tailcaller, .Ltmp0-tailcaller 

.cfi endproc 


.section ".note.GNU-stack","",@progbits 


使 用 diff 工 具 比 较 两 个 汇编 文件 ， 这 里 用 了 meld 工 具 ， 如 下 图 所 


工作 原理 


尾 调 用 优化 是 一 种 编译 万 优 化 技术 ， 目 的 在 于 减少 函数 调用 的 开 
销 ， 它 能 够 在 不 创建 新 的 栈 巾 (不 使 用 另外 的 栈 空间 ) 的 情况 下 进行 
玉 数 调用 。 不 过 这 个 优化 有 前 提 条 件 ， 玉 数 调用 指令 必须 在 函数 的 最 
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(其 他 的 函数 或 者 它 自 己 ) ， 然 后 返回 被 调 者 的 返回 值 。 尾 调用 优化 
使 得 尾 递 归 函 数 只 需要 音量 且 有 限 的 栈 空间 。 为 了 进行 优化 ， 有 时 候 
还 会 改变 代码 本 身 以 莹 试 进行 尾 调用 优化 ， 所 以 尾 调用 优化 并 不 仅仅 
适用 于 特定 的 模式 。 


在 之 前 的 测试 实例 中 ， 因 为 尾 调用 优化 的 缘故 多 了 两 条 push-pop 
指令 。 在 LLVM 中 ， 尾 调用 优化 是 由 手 定 平台 的 ISelLowering.cpp 文 件 
实现 的 ， 对 x86 来 说 ， 束 是 X86ISelLowering.cpp 文 件 : 


The code in function SDValue  X86TargetLowering::LowerCall 


bool IsMustTail = CLI.CS && CLI.CS-»isMustTailCall(); 
if (IsMustTail) { 
// 强制 转 为 尾 调 用 ， 校 验 规 则 能 够 保证 不 改变 返回 地 址 而 成 功 尾 调用 。 


isTailCall = true; 


) else if (isTailCall) { 
// 检查 是 否 是 尾 调用 


isTailCall = IsEligibleForTailCallOptimization(Callee, 


CallConv, 
isVarArg, SR !- NotStructReturn, 
MF.getFunction()->hasStructRetAttr(), 
CLI.RetTy, 


Outs, OutVals, Ins, DAG); 


4 fe 3$ T tailcallopt 2X AY E E AY f AB 395 FH Val H Is Eligible 
ForTail- CallOptimization() KL, ERRE Xe EAT FÉV DUI, Za 
PE RAS ps AAS 。 


兄 第 调用 优化 


本 节 介 绍 LLVM 兄 弟 调用 (sibling call) 优化 。 兄 弟 调用 优化 是 
尾 调用 优化 的 特例 ， 当 被 调 才 和 调用 者 函数 签名 相似 的 时 候 ， 即 返回 
值 类 型 和 函数 参数 相 匹 配 ， 束 能 进行 兄 第 调用 优化 了 。 


准备 工作 


为 兄弟 调用 编写 测试 实例 ， 保 证 调用 者 和 被 调 者 有 相同 的 调用 约 
mE (C 或 者 fastcc ) ， 并 且 在 尾部 位 置 是 一 个 尾 调用 : 


$ cat sibcal1.11 
declare i32 @bar(i32, 132) 


define i32 @fo00(i32 %a, i32 %b, 132 %c) { 
entry: 


%0 = tail call 132 @bar(i32 %a, 132 %b) 


ret 132 %0 


详细 步骤 


1. 用 llc 工 具 进 行 编译 ， 生 成 汇编 码 ; 


$ llc sibcall.11 


2. 用 cat 命 令 查看 生成 的 汇编 码 : 


$ cat sibcall.s 
.text 
.file "sibcall.11" 
.globl foo 
.align 16, 0x90 
.type foo, @function 
foo: # @foo 


.cfi_startproc 


4 BBZO: # %entry 
Jmp bar # TAILCALL 
.Lfunc endO: 


‚size foo, .Ltmp0-foo 


.cfi endproc 


„section ".note.GNU-stack","",@progbits 


工作 原理 
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实施 而 不 需要 传递 tailcallopt 选 项 。 兄 第 调用 优化 和 尾 调用 优化 的 方式 
相似 ， 但 兄弟 调用 优化 能 够 目 动 进行 并 且 不 需要 改变 ABI。 对 于 兄弟 
调用 来 说 ， 调 用 者 和 被 调 者 函数 签名 要 相似 ， 因 为 当主 调 函 数 (是 一 
DEBIEL) 在 被 调 函 数 完成 任务 后 清理 被 调 函 数 的 参数 时 ， 如 采 
被 调用 函数 超出 参数 空间 限制 对 一 个 需要 更 多 栈 空 间 来 存储 参数 的 函 
数 进 行 见 第 调用 ， 那 么 束 会 造成 内 存 泄 漏 。 


[1] CSE 算 法 : CSE 算 法 用 于 消除 如 下 的 见 余 计算 : a=b*c+g;d 
=b*c+e;， 在 这 里 b * c 被 计算 了 两 次 ， 这 是 不 必要 的 ， 它 可 以 被 优化 
成 : tmp =b*c;a=tmp+g;d=tmp+e; ° 一 一 译 者 注 
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e FE ay ean tl at Pas RA 
e 定义 调用 约定 

。 定义 指令 集 

。 实现 栈 帧 lowering 

。 打印 指令 

。 选择 指令 

。 增加 指令 编码 

。 TOES XT 

e 多 指令 lowering 


“平台 注册 


概述 


编译 医 的 最 终 目标 是 产生 目标 平台 的 代码 ， 或 者 是 产生 汇编 码 ， 
进而 能 够 通过 汇编 器 转 为 目标 代码 并 能 够 在 真实 的 硬件 上 执行 。 为 了 
得 到 汇编 码 ， 编 译 右 需要 知道 目标 机 絮 架 构 的 各 个 方面 一 一 寄存 带 、 
指令 集 、 调 用 约定 、 流 水 线 等 ， 所 以 其 实在 这 一 阶段 还 有 很 多 可 以 做 
HU DUAL © 


LLVM/& A CHEX BERILAR H7; A —tablegen, ii ER THE 
目标 的 寄存 器 、 指 令 集 、 调 用 约定 等 ， 并 且 tablegen 函 数 以 编程 的 方式 
绥 解 了 拉 述 一 套 架构 属性 所 市 来 的 困扰 。 


LLVM 的 后 端 有 一 父 流 水 线 架 构 ， 指 令 经 历 了 许多 阶段 : 从 LLVM 
IR 到 SelectionDAG、MachineDAG、MachineInstr， 最 终 到 MCInst。 


IR 首 先 被 转 为 SelectionDAG (DAG 指 的 是 有 向 无 环 图 ) ， 之 后 
SelectionDAG 会 被 合法 化 (目标 平台 不 支持 的 指令 会 被 转换 成 合法 的 
BS) ， 接 着 转 为 MachineDAG (基本 上 是 针对 后 端的 指令 选择 ) 。 


CPU 线性 地 执行 指令 序列 ， 指 令 调 度 阶段 的 一 个 目的 殉 是 分 配 指 
令 的 执行 顺序 ， 把 DAG 转 换 成 线性 的 指令 。LLVM 的 代码 生成 恬 使 用 
了 一 些 聪 明 的 局 发 式 算法 来 尽量 产生 更 快 的 代码 ， 例 如 寄存 器 压力 减 
少 。 在 生成 更 好 的 LLVM 代 码 的 过 程 中 ， 寄 存 亏 分 配 策 略 扮演 了 一 个 
很 重要 的 角色 。 


本 章 描 述 了 如 何 从 头 构建 LLVM TOY 后 端 。 最 终 ， 我 们 能 够 使 用 
这 个 样 例 TOY 后 端 来 生成 汇编 代码 o 


FE jin 


本 章 实现 的 样 例 后 端 是 一 个 简单 的 RISC 风 格 的 架构 ， 它 有 很 少 的 
寄存 器 (0743) 、1 个 栈 寄存 器 (sp) 和 1 个 链接 寄存 器 (in) 用 于 在 
储 返 回 地 址 。 


此 TOY 后 端 遵循 的 调用 约定 和 ARM 架 构 相 似 ， 传 递 给 函数 的 参数 
通过 寄存 右 集 合 r0~T1 存 储 ， 而 返回 值 通过 r0 存 储 。 


XE CST Pan Tl Bo TE RE 
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tablegen EN Zi nT DATE td XRH ine Ct, mi ESTHER n] LAE cpp WAF 
中 通过 #include 声 明 引 入 ， 进 而 应 用 其 中 定义 的 寄存 器 。 


准备 工作 


如 前 面 所 定义 的 ， 我 们 的 TOY 目 标 机 器 有 4 个 普通 寄存 器 (10— 
r3) 、1 个 栈 寄存 器 (sp) 、1 个 链接 寄存 器 (lr) 。 这 些 内 容 可 以 在 
TOYRegisterInfo.td 文 件 中 指定 。tablegen 函 数 提供 了 Register 类 ， 通 过 
继承 这 个 类 ， 可 以 表示 这 些 寄存 右 。 


详细 步骤 


HÁTA FEIK, I HEF A AIFF RESA IAR o 


1. 在 lib/Target 目 录 下 创建 一 个 TOY 目 录 : 


$ mkdir llvm root directory/lib/Target/TOY 


2. 在 TOY 目 录 下 创建 TOYRegisterInfo.td 文 件 : 


$ cd llvm root directory/lib/Target/TOY 


$ vi TOYRegisterInfo.td 


3. 定义 硬件 编码 、 命 名 空间 、 寄 存 器 、 寄 存 需 类 : 


class TOYReg<bits<16> Enc, string n» : Register<n> { 
let HWEncoding - Enc; 


let Namespace = "TOY"; 


foreach i - 0-3 in ( 


def RZi : R<i, "r"#i >; 
def SP : TOYReg<13, "sp">; 
def LR : TOYReg<14, "1r">; 


def GRRegs : RegisterClass<"TOY", [132], 32, 


(add RO, R1, R2, R3, SP)»; 


工作 原理 


tablegen 函 数 处 理 .td 文件 以 生成 .inc 文件 ， 并 用 枚 举 类 型 来 表示 寄 
存 亏 ， 于 是 我 们 能 够 在 .cpp 文 件 中 引用 这 些 枚 举 类 型 。 例 如 ，r0 寄 存 内 
可 以 用 TOY:R0 引 用 。 在 我 们 构建 LLVM 项 目 时 会 生成 这 些 .inc 文 件 。 


FDD 


。 关于 更 多 高 级 架构 (例如 ARM) 的 寄存 器 定义 ， 请 参见 LLVM 源 
码 认 的 lib/Target/ARM/ARMRegisterInfo.td 文 件 。 


定义 调用 约定 


调用 约定 指 的 古 值 如 何 传 递 给 函数 以 及 如 何 从 函数 返回 。 在 TOY 
架构 中 ， 两 个 参数 通过 tO 和 rl 这 两 个 寄存 右 传 递 ， 简 下 的 通过 栈 传 
递 。 本 万 将 介绍 如 何 定义 调用 约定 ， 它 会 通过 函数 指针 被 TSelLowering 
(在 第 6 章 “ 平 台 无 关 代 码 生成 器 ?的 指令 选择 lowering 阶 段 提 及 ) 使 
用 。 


调用 约定 在 TOYCallingConv.td 文 件 中 定义 ， 它 主要 包含 两 块 内 
容 返回 值 约 定 和 参数 传递 约定 。 返 回 值 约 定 指 的 是 返回 值 会 如 何 传 
递 以 及 通过 哪个 寄存 器 传递 ， 参 数 传递 约定 指 的 是 参数 通过 栈 还 是 寄 
存 器 传递 ， 以 及 通过 哪个 寄存 器 传递 。 在 定义 TOY 平 台 的 调用 约定 
时 ， 会 继承 CallingConv 类 。 


详细 步骤 


执行 以 下 步骤 ， 实 现 调用 约定 : 


1. 在 lib/Target/TOY/ 目 录 下 ， 创 建 TOYCallingConv.td 文 件 : 


$ vi TOYCallingConv.td 


2. 在 文件 中 定义 返回 值 约定 ， 如 下 : 


def RetCC TOY : CallingConv<[ 
CCIfType<[i32], CCAssignToReg<[RO]>>, 
CCIfType<[ 132], CCAssignToStack<4, 4>> 


1>; 


, 


3. 同样 ， 定 义 参数 传递 约定 ， 如 下 : 


def CC TOY : CallingConv<[ 
CCIfType<[i8, i16], CCPromoteToType<i32>>, 
CCIfType<[i32], CCAssignToReg<[RO, R1]>>, 
CCIfType<[i32], CCAssignToStack<4, 4>> 


1>; 


, 


4. 定义 被 调 者 保存 寄存 器 (callee saved) 集合 : 


def CC Save : CalleeSavedRegs<(add R2, R3)»; 


工作 原理 


在 前 面 你 看 到 的 .td 文件 中 ， 指 定 了 32 位 整数 的 返回 值 会 存储 在 r0 
寄存 右 当 中 。 当 传递 参数 给 函数 时 ， 前 两 个 参数 会 存储 于 r0 和 r1 寄 存 
硕 。 同 样 ， 文 件 也 指定 了 任何 数据 类 型 ， 例 如 8 位 整数 或 16 位 整数 ， 都 
会 提升 至 32 位 整数 。 


tablegen 函数 会 为 此 生成 TOYCallingConvinc 文 件 ， 在 
TOYISelLowering.cpp 文 件 中 被 引用 。 同 时 会 生成 两 个 用 于 定义 参数 处 
理 方 式 的 目标 hook 函 数 ，LowerFormalArguments() 和 LowerReturn()。 


FDD 


。 关于 高 级 架构 (例如 ARM) 实现 的 更 多 内 容 ， 请 参见 
lib/Target/ARM/ARM- CallingConv.td 文 件 。 


定义 指令 集 


-个 平台 的 指令 集 的 定义 包 售 多 种 此 平台 的 特性 。 本 节 介 绍 如 何 
为 目标 平台 定义 指令 集 。 


指令 目标 描述 文件 定义 了 3 样 内 容 : 操作 数 、 汇 编 字 符 串 、 指 令 格 
式 。 具 体 包括 定义 或 输出 列表 ， 以 及 使 用 或 输入 列表 。 其 中 也 有 不 同 
的 操作 类 ， 如 Register 类 、 立 即 数 ， 以 及 更 复杂 的 register+imm 操 作 


AN o 


本 节 以 一 个 简单 的 添加 指令 〈 它 用 两 个 寄存 器 作为 操作 数 ) 定义 
来 展示 。 


详细 步骤 


同样 是 通过 目标 描述 文件 来 定义 指令 集 ， 执 行 以 下 步骤 。 


1. 在 lib/TargeVTOY/ 目 孙 下 创建 TOYInstrInfo.td 文 件 : 


$ vi TOYInstrInfo.td 


2. 为 采用 两 个 寄存 做 作为 操作 数 的 add 指 令 指 定 操 作 数 、 汇 编 字 符 
串 、 指 令 格式 : 


def ADDrr : InstTOY«(outs GRRegs:$dst), 
(ins GRRegs:$srci, GRRegs:$src2), 
"add $dst, $src1,z$src2", 


[(set i32:$dst, (add i32:$srcí1, i32:$src2))]»; 


工作 原理 


从 寄存 器 到 寄存 句 的 add 指 令 有 3 个 32 位 整 型 操作 数 ， 都 是 寄存 
器 ， 其 中 $dst 作 为 结果 操作 数 ，$src1 和 $src2 作 为 输入 操作 数 ， 它 们 都 
是 General Register 类 型 类 ; 指令 的 汇编 字符 串 ， 如 32 位 整数 类 型 
的 "add $dst, $src1, $src2" » 


因此 ， 对 两 个 寄存 器 执行 add 指 令 产 生 的 汇编 码 如 下 : 


add r0, ro, ri 
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。 许多 指令 都 有 相同 类 型 的 指令 格式 ， 例 如 像 add、sub 等 这 样 的 
ALU 指 令 ， 它 们 的 格式 都 为 "dst，src1，src2"， 这 个 多 类 被 用 于 定 
义 公 共 属 性 。 关 于 高 级 架构 (例如 ARM) 指令 集 的 多 种 类 型 的 详 
细 人 信息， 请 参见 lib/Target/ARM/ ARMInstrInfo.td 文 件 。 


实现 栈 帧 lowering 


本 节 介 绍 目 标 架 构 的 栈 帧 的 lowering 〈 从 高 级 抽象 到 低级 抽 
象 ) 。 栈 帧 lowering 包 括 发 射 国 数 调用 的 头 尾 代 码 。 


准备 工作 


T Wi lowering fa 2 Œ X. W ^l KE: TOYFrameLowering::emit- 


Prologue()#/TOY FrameLowering::emitEpilogue() © 


详细 步骤 


TElib/Target/TOY H 5&HJTOYFrameLowering.cpp X. £F FH E X. LA F EN 
y 
数 。 


1. emitPrologue HAVE X. All P: 


void TOYFrameLowering::emitPrologue(MachineFunction &MF) 
const ( 
const TargetInstrInfo &TII - 
*MF.getSubtarget().getinstrInfo(); 
MachineBasicBlock &MBB - MF.front(); 
MachineBasicBlock::iterator MBBI - MBB.begin(); 
DebugLoc dl = MBBI !- MBB.end() ? MBBI-»getDebugLoc() 
DebugLoc( ); 
uint64 t StackSize - computeStackSize(MF); 
if (!StackSize) { 
return; 
} 
unsigned StackReg = TOY::SP; 
unsigned OffsetReg - materializeOffset(MF, MBB, MBBI, 
(unsigned)StackSize); 
if (OffsetReg) { 
BuildMI(MBB, MBBI, dl, TII.get(TOY::SUBrr), StackReg) 
.addReg(StackReg) 
.addReg(OffsetReg) 


.setMIFlag(MachineInstr::FrameSetup); 


) else ( 
BuildMI(MBB, MBBI, dl, TII.get(TOY::SUBri), StackReg) 
.addReg(StackReg) 
.addImm(StackSize) 


.setMIFlag(MachineInstr::FrameSetup); 


2. emitEpilogue KELE X. AIT F: 


void TOYFrameLowering::emitEpilogue(MachineFunction &MF, 
MachineBasicBlock &MBB) 


const ( 


const TargetInstrInfo &TII - 

*MF.getSubtarget().getinstrInfo(); 
MachineBasicBlock::iterator MBBI - 
MBB.getLastNonDebugInstr(); 

DebugLoc dl = MBBI->getDebugLoc(); 

uint64 t StackSize - computeStackSize(MF); 

if (!StackSize) { 

return; 

} 

unsigned StackReg = TOY::SP; 

unsigned OffsetReg - materializeOffset(MF, MBB, MBBI, 

(unsigned)StackSize); 


if (OffsetReg) { 


BuildMI(MBB, MBBI, dl, TII.get(TOY::ADDrr), StackReg) 
.addReg(StackReg) 
.addReg(OffsetReg) 
.setMIFlag(MachineInstr::FrameSetup); 

) else ( 

BuildMI(MBB, MBBI, dl, TII.get(TOY::ADDri), StackReg) 
.addReg(StackReg) 
.addImm(StackSize) 


.sSetMIFlag(MachineInstr::FrameSetup); 


3, — E JADDIBERTETE GEHL REP ES S8 BI EN AL: 


static unsigned materializeOffset(MachineFunction &MF, 
MachineBasicBlock &MBB, MachineBasicBlock::iterator MBBI, 
unsigned Offset) ( 
const TargetInstrInfo &TII - 
*MF.getSubtarget().getinstrInfo(); 
DebugLoc dl = MBBI !- MBB.end() ? MBBI-»getDebugLoc() 
DebugLoc( ); 
const uint64 t MaxSubImm - Oxfff; 
if (Offset <= MaxSubImm) { 
return 0; 
) else ( 
unsigned OffsetReg - TOY::R2; 


unsigned OffsetLo - (unsigned)(Offset & Oxffff); 


unsigned OffsetHi = (unsigned)((Offset & Oxffff0000) >> 
16); 
BuildMI(MBB, MBBI, dl, TII.get(TOY::MOVLOi16), 
OffsetReg) 
.addImm(OffsetLo) 
.sSetMIFlag(MachineInstr::FrameSetup); 
if (OffsetHi) { 
BuildMI(MBB, MBBI, dl, TII.get(TOY::MOVHIi16), 
OffsetReg) 
.addReg(OffsetReg) 
.addImm(OffsetHi) 
.SetMIFlag(MachineInstr::FrameSetup); 


} 
return OffsetReg; 


4. EREA NB BUD EA: 


uint64 t TOYFrameLowering::computeStackSize(MachineFunction 
&MF) const ( 

MachineFramelnfo *MFI = MF.getFrameInfo(); 

uint64 t StackSize = MFI->getStackSize(); 

unsigned StackAlign = getStackAlignment(); 

if (StackAlign > 0) { 


StackSize = RoundUpToAlignment(StackSize, StackAlign); 


return StackSize; 


工作 原理 


emitPrologue 函 数 首 和 完 计算 栈 大 小 来 决定 是 否 需 要 头 代码 ， 然 后 计 
算 偏 移 来 调整 栈 指针 。 对 于 尾 代码 来 说 ， 同 样 需 要 先 检 查 是 否 需 要 尾 
代码 ， 然 后 把 栈 指 针 还 原 成 函数 开始 时 的 样子 。 


例如 ， 我 们 看 看 这 段 输入 IR: 


%p = alloca i32, align 4 
store 132 2, i32* %p 
%b = load i32* %p, align 4 


%c = add nsw i32 96a, %b 


生成 的 TOY 汇 编码 如 下 : 


sub sp, sp, #4 ; prologue 
movw ri, #2 

str ri, [sp] 

add rO, ro, #2 


add sp, sp, #4 ; epilogue 


PRAAN 


e X T ARM 4 W 的 W lowering 信息 ， 请 参见 
lib/Target/ARM/ARMFrame- Lowering.cpp X. E © 


打印 指令 


在 生成 目标 代码 的 过 程 中 ， 打 印 汇编 指令 是 很 重要 的 步 又。 定义 
很 多 类 以 管道 的 方式 过 滤 ， 由 之 前 定义 的 .td 文件 提供 指令 字符 串 。 


准备 工作 


打印 指令 的 第 一 步 ， 也 是 最 重要 的 一 步 ， 是 在 .td 文件 中 定义 指令 
字符 串 ， 这 在 “定义 指令 集 ” 一 市 中 有 过 介绍 。 


详细 步骤 


执行 以 下 步骤 o 


1. TOY H5& FG Sr InstPrinter H =: 


$ cd lib/Target/TOY 


$ mkdir InstPrinter 


2. 创建 TOYInstrFormats.td 文 件 ， 定 义 AsmString 变 量 : 


class InstTOY«dag outs, dag ins, string asmstr, list<dag> 
pattern» 
Instruction ( 

field bits<32> Inst; 

let Namespace = "TOY"; 

dag OutOperandList - outs; 

dag InOperandList - ins; 

let AsmString - asmstr; 

let Pattern - pattern; 


let Size = 4; 


3. 创建 TOYInstPrinter.cpp 文 件 ， 并 定义 printOperand 函 数 ， 如 下 : 


void TOYInstPrinter::printOperand(const MCInst *MI, 
unsigned OpNo, raw ostream &O) ( 
const MCOperand &Op = MI->getOperand(OpNo); 
if (Op.isReg()) { 
printRegName(O, Op.getReg()); 


return; 


if (Op.isImm()) { 
0 << "#" << Op.getImm(); 
return; 


} 


assert(Op.isExpr() && "unknown operand kind in 


printOperand"); 


printExpr(Op.getExpr(), 0); 


4. 同时 还 需要 定义 一 个 函数 来 打印 寄存 器 名 称 : 


void TOYInstPrinter::printRegName(raw ostream &OS, unsigned 


RegNo) const ( 


OS «« StringRef(getRegisterName(RegNo)).lower(); 


5. 定义 一 个 打印 指令 的 函数 : 


void TOYInstPrinter::printInst(const MCInst *MI, 
raw ostream &O,StringRef Annot) { 
printInstruction(MI, 0); 


printAnnotation(O, Annot); 


6. 定 X TOYMCAsmlnfo.h 和 TOYMCAsmlnfo.cpp X. fF, 18 


MCASMinfo 来 打印 指令 。 


TOYMCAsmInfo.h 文 件 定义 如 下 : 


#ifndef TOYTARGETASMINFO_H 
#define TOYTARGETASMINFO_H 


#include "llvm/MC/MCAsmINfoELF.h" 


BM 


AE 


namespace llvm { 
class StringRef; 


class Target; 


class TOYMCAsmInfo : public MCAsmInfoELF { 
virtual void anchor(); 

public: 
explicit TOYMCAsmInfo(StringRef TT); 

}; 


) // 命名 空间 llvm 


Zendif 


TOYMCAsmlnfo.cpp X fF 4E X. All P : 


Zinclude "TOYMCAsmInfo.h" 
#include "llvm/ADT/StringRef.h" 


using namespace llvm; 


void TOYMCAsmInfo::anchor() {} 


TOYMCAsmInfo::TOYMCAsmInfo(StringRef TT) ( 
SupportsDebugInformation - true; 
Datai6bitsDirective = "\t.short\t"; 
Data32bitsDirective = "\t.long\t"; 
Data64bitsDirective = 0; 


ZeroDirective = "\t.space\t"; 


CommentString = "#"; 


AscizDirective = ".asciiz"; 


HiddenVisibilityAttr = MCSA Invalid; 
HiddenDeclarationVisibilityAttr = MCSA Invalid; 


ProtectedVisibilityAttr = MCSA_Invalid; 


7. 为 指令 打印 器 定义 LLYMBuild.txt 文 件 : 


[component 0] 

type - Library 

name - TOYAsmPrinter 

parent - TOY 

required libraries - MC Support 


add to library groups - TOY 


8. «E X CMakeLists.txt: 


add llvm library(LLVMTOYAsmPrinter 


TOYInstPrinter.cpp 
) 


工作 原理 


在 重新 构建 过 LLVM 之 后 ， 只 需要 用 llc 静 态 编 译 工 具 ， 束 能 输出 
TOY 架 构 的 汇编 码 了。 


例如 ， 对 于 以 下 的 了 及 ,用 lc 工具 编译 ， 会 生成 以 下 的 汇编 码 : 


target datalayout = "e-m:e-p:32:32-11:8:32-18:8:32- 
116:16:32-164:32-f64:32-a:0:32-n32" 
target triple = "toy" 
define i32 Qfoo(i32 %a, 132 %b) { 
%c = add nsw i32 %a, %b 


ret i32 %c 


$ llc foo.11 

.text 

.file "foo.11" 
.globl foo 

.type foo,Qfunction 
foo: # Qfoo 

# BB#O: # %entry 
add rO, ro, ri 

b Ir 

.LtmpO: 


.size foo, .LtmpO-foo 


选择 指令 


DAG 中 的 蕉 指令 需要 被 映射 到 特定 平台 对 应 的 指令 。 同 样 ， 在 
SDAGT AT ABSIR, WS ETEBGEDSSBIJDAGT ABR ° Eta Sit 


择 阶 段 之 后 ， 得 到 的 结果 还 需要 进行 指令 调度 。 


准备 工作 


1. 为 了 进行 特定 机 器 的 指令 选择 ， 需 要 定义 一 个 独立 的 
TOYDAGToDAGISel 类 ， 因 此 为 了 编译 包含 这 个 类 定义 的 文件 ， 需 
把 文件 名 添加 到 TOY/CMakeLists.txt 文 件 中 : 


$ vi CMakeLists .txt 


add llvm target(... 


TOYISelDAGTODAG.cpp 


2. TOY TargetMachine.h Il TOY TargetMachine.cpp X. fF # ZH Pass 


SSH: 


$ vi TOYTargetMachine.h 
const TOYInstrinfo *getInstriInfo() const override { 


return getSubtargetImpl()->getinstrinfo( ); 
} 


3. 在 TOYTargetMachine.cpp 文 件 中 增加 以 下 代码 ， 在 指令 选择 阶 
段 创 建 一 个 Pass: 


class TOYPassConfig : public TargetPassConfig { 


public: 


virtual bool addInstSelector(); 
}; 


bool TOYPassConfig::addInstSelector() { 
addPass(createTOYISelDag(getTOYTargetMachine())); 


return false; 


i 


详细 步骤 


执行 以 下 步 又 ， 定 义 指令 选择 函数 。 
1. 创建 TOYISelDAGToDAG.cpp 文 件 : 


$ vi TOYISelDAGTODAG.cpp 


Drm ANLASS es 


#include "TOY.h" 

#include "TOYTargetMachine.h" 

#include "llvm/CodeGen/SelectionDAGISel.h" 
#include "llvm/Support/Compiler .h" 
#include "llvm/Support/Debug.h" 


#include "TOYInstrInfo.h" 


3. Æ X. TOYDAGTOoDAGISel2S, WH SelectionDAGISel2S , Jl 
下 : 


class TOYDAGTODAGISel : public SelectionDAGISel { 


const TOYSubtarget &Subtarget; 


public: 
explicit TOYDAGTODAGISel(TOYTargetMachine &TM, 
CodeGenOpt::Level OptLevel) 

: SelectionDAGISel(TM, OptLevel), Subtarget(*TM. 


getSubtargetImpl()) {} 
ti 


4. 这 个 类 中 要 定义 的 最 重要 的 函数 是 Select()， 它 依据 机 器 指令 返 
回 一 个 SDNode 对 象 。 


在 类 中 声明 : 


SDNode *Select(SDNode *N); 


SDNode *TOYDAGTODAGISel::Select(SDNode *N) ( 


return SelectCode(N); 


5. 另 一 个 重要 的 函数 是 定义 地 址 选择 函数 ， 它 会 计算 加 载 、 存 储 
操作 的 基 址 和 偏 移 。 


声明 如 下 : 


bool SelectAddr(SDValue Addr, SDValue &Base, SDValue &Offset); 


bool TOYDAGTODAGISel::SelectAddr(SDValue Addr, SDValue 
&Base, SDValue &Offset) ( 
if (FramelndexSDNode *FIN - 
dyn_cast<FrameIndexSDNode>(Addr)) { 
Base = CurDAG->getTargetFrameIndex(FIN->getIndex(), 
getTargetLowering()- 
>getPointerTy()); 
Offset = CurDAG->getTargetConstant(0, MVT::132); 
return true; 
} 
if (Addr.getOpcode() == ISD::TargetExternalSymbol || 
Addr.getOpcode() -- ISD::TargetGlobalAddress || 
Addr.getOpcode() == ISD::TargetGlobalTLSAddress) { 
return false; // 直接 调用 


Base - Addr; 
Offset = CurDAG-»getTargetConstant(0, MVT::132); 


return true; 


6. mln, createTOYISelDag Pass il & 1X ÜJDAG A TOY F 6 AY 
DAG， 并 且 为 定义 于 同一 文件 中 的 指令 调度 做 准备 : 


FunctionPass *llvm::createTOYISelDag(TOYTargetMachine &TM, 
CodeGenOpt::Level OptLevel) { 

return new TOYDAGTODAGISel(TM, OptLevel); 

} 


工作 原理 


TOYISelDAGToDAG.cpp' #TOYDAGToDAGISel::Select() Ek Z& Fj 
于 选择 DAG 节 点 的 操作 码 ， 而 TOYDAGISel: : SelectAddr0 则 用 于 选 
择 DataDAG 市 点 的 addr 类 型 。 需 要 注意 的 是 ， 如 果 地 址 是 全 局 的 或 者 
是 外 部 的 ， 则 返回 false， 因 为 它 需 要 在 全 局 上 下 文中 计算 。 


PRAAN 


e 关于 一 些 复杂 架构 〈 例 如 ARM 架 构 ) 的 DAG 机 器 指令 选择 ， 请 参 
见 LLYM 源 码 库 的 lib/Target/ARM/ARMISelDAGToDAG.cpp 文 件 。 


增加 指令 编码 


如 果 指 令 需 要 进行 编码 出 ， 即 如 何 用 位 字段 表示 ， 那 么 可 以 在 .td 
文件 中 定义 指令 的 时 候 指定 位 字段 。 


详细 步骤 


为 了 在 定义 指令 的 时 候 包含 指令 编码 ， 需 要 执行 以 下 步 又 。 


1. 对 于 注册 add 指 令 的 一 个 寄存 器 操作 数 ， 会 有 一 些 定义 的 指令 编 
码 。 指 令 的 大 小 是 32 位 的 ， 它 的 编码 如 下 : 


bits O to 3 -> src2, second register operand 
bits 4 to 11 -> all zeros 

bits 12 to 15 -> dst, for destination register 
bits 16 to 19 -> srci, first register operand 
bit 20 -» zero 

bit 21 to 24 -» for opcode 

bit 25 to 27 -» all zeros 


bit 28 to 31 -» 1110 
这 可 通过 在 .td 文件 中 指定 位 模式 来 实现 。 
2. 在 TOYInstrFormats.td 文 件 中 定义 名 为 Inst 的 变量 : 


class InstTOY«dag outs, dag ins, string asmstr, list<dag> 


pattern» 


Instruction ( 


field bits<32> Inst; 


let Namespace = "TOY"; 


let AsmString - asmstr; 


3. 在 TOYInstrInfo.td 文 件 中 定义 指令 编码 : 


def ADDrr : InstTOY<(outs GRRegs:$dst),(ins GRRegs:$src1, 
GRRegs:$src2) ... > { 

bits<4> src1; 

bits<4> src2; 

bits<4> dst; 


let Inst{31-25} 


0b1100000; 

let Inst{24-21} = 0b1100; // 操作 码 
Let Inst{20} - 0b0; 

Let Inst{19-16} = srci; // 操作 数 1 
dst; // 目标 


Let Inst{15-12} 
Let Inst{11-4} = 0b0009000; 


Let Inst(3-0) - src2; 


A. fE TOY/MCTargetDesc/TOYMCCodeEmitter.cpp X ff F, An pl 


aria SAVER TEBE a eae, HELMS H USES EET: 


unsigned TOYMCCodeEmitter::getMachineOpValue(const MCInst 


&MI, 
const 
MCOperand &MO, 
SmallVectorlImpl«MCFixup» &Fixups, 
const 


MCSubtargetInfo &STI) const ( 
if (MO.isReg()) { 
return CTX.getRegisterInfo()- 


>getEncodingValue(MO.getReg()); 
j 


5. 在 同一 个 文件 中 ， 指 定编 码 指令 的 函数 : 


void TOYMCCodeEmitter::EncodeInstruction(const MCInst &MI, 
raw ostream &0S, SmallVectorlImpl«MCFixup» &Fixups, const 


MCSubtargetInfo &STI) const ( 
const MCInstrDesc &Desc - MCII.get(MI.getOpcode()); 


if (Desc.getSize() !- 4) { 


llvm unreachable("Unexpected instruction size!"); 


const uint32 t Binary - getBinaryCodeForInstr(MI, 


Fixups, STI); 


EmitConstant(Binary, Desc.getSize(), 0S); 
++MCNumEmitted; 
} 


工作 原理 


在 .td 文件 中 ， 指 令 的 编码 通过 为 其 操作 数 、 目 标 、 参 数 状态 、 操 
作 码 来 编码 (指令 每 一 位 的 存储 内 容 ) 而 实现 。 同 样 ，tablegen 会 为 .td 
生成 .inc 文 件 ， 而 机 絮 码 发 射 器 可 以 通过 函数 调用 来 获得 这 些 编码 。 它 
编码 这 些 指 令 并 为 打印 指令 发 射 相同 内 容 。 


PRAAN 


。 关于 一 些 复杂 架构 (例如 ARM 架 构 ) 的 指令 编码 ， 请 参见 LLVM 
代码 库 的 lib/TargeVARMV/ARMInstrInfo.td 文 件 。 


子平 台 支 持 


目标 平台 可 能 还 会 有 子平 台 (平台 的 变 体 ) 一 一 在 一 些 细节 的 处 
理 上 存在 不 同 ， 例 如 指令 中 操作 数 的 处 理 ， 而 这 些 子 平台 特性 在 
LLVM 后 端 中 也 得 到 了 支持 。 子 平台 可 能 包含 额外 的 指令 、 寄 存 器 、 
调度 模型 等 。 例 如 ARM 有 子平 台 NEON 和 THUMB ，x86 有 一 些 子 平台 
特性 SSE、AVX 等 。 子 平台 的 指令 集 特 性 有 所 不 同 ， 例 如 ARM 的 子平 
人 台 NEON 和 支持 向 量 指令 的 SSE/AVX，SSE/AVX 也 支持 向 量 指令 集 ， 
但 它们 的 指令 互 不 相同 。 


详细 步骤 


本 节 介绍 如 何在 后 端 加 入 对 子平 台 的 支持 ， 首 先 需要 定义 一 个 继 
承 TargetSubtar_getInfo 类 的 子 类 。 


1. 创建 TOYSubtargeth 文 件 : 


$ vi TOYSubtarget.h 


LAARA UT: 


#include "TOY.h" 

#include "TOYFrameLowering.h" 

#include "TOYISelLowering.h" 

#include "TOYInstrInfo.h" 

#include "TOYSelectionDAGInfo.h" 

#include "TOYSubtarget.h" 

#include "llvm/Target/TargetMachine.h" 
#include "llvm/Target/TargetSubtargetInfo.h" 


#include "TOYGenSubtargetInfo.inc" 


3. 定义 TOYSubtarget 类 ， 它 包含 一 些 私 有 成 员 来 表示 子平 台 的 数 
据 布局 、 目 标 lowering、DAG 指 令 选 择 、 目 标 帧 lowering 等 信息 : 


class TOYSubtarget : public TOYGenSubtargetInfo { 


virtual void anchor(); 


private: 


const DataLayout DL; // 计算 类 型 大 小 和 对 齐 方式 


TOYInstrInfo InstrInfo; 
TOYTargetLowering TLInfo; 
TOYSelectionDAGInfo TSInfo; 
TOYFrameLowering FrameLowering; 


InstrItineraryData InstrItins; 


4. FARA Re) tea EN RL: 


TOYSubtarget(const std::string &TT, const std::string &CPU, 


const std::string &FS, TOYTargetMachine &TM); 
XT 48 ER BUT ABE CL DA VE BUE EY = 7028 e 
5. AE SUKI] EAA ATIE BT FH) E AC: 


const InstrlItineraryData *getInstrItineraryData( ) const 
override { 


return &InstrItins; 


const TOYInstrlinfo *getInstrInfo() const override { return 


&InstrInfo; } 


const TOYRegisterInfo *getRegisterInfo() const override { 


return &Instrinfo.getRegisterInfo(); 


const TOYTargetLowering *getTargetLowering() const override { 


return &TLInfo; 


const TOYFrameLowering *getFrameLowering() const override ( 


return &FrameLowering; 


const TOYSelectionDAGInfo *getSelectionDAGInfo() const override 


{ 
return &TSInfo; 


} 


const DataLayout *getDataLayout() const override { return &DL; 


} 


void ParseSubtargetFeatures(StringRef CPU, StringRef FS); 


6. EKETOYSubtarget.cpp ctf, XE CPE KET: 


TOYSubtarget::TOYSubtarget(const std::string &TT, const 
std::string &CPU, const std::string &FS, TOYTargetMachine &TM) 
DL("e-m:e-p:32:32-11:8:32-18:8:32-116:16:32-164:32- 


f64:32-a:0:32-n32"), 


InstrInfo(), TLInfo(TM), TSInfo(DL), FrameLowering() 
{} 


子平 台 定 义 了 目 己 的 数据 布局 ， 包 含 一 些 如 栈 帧 lowering、 指 


令 、 子 平台 等 信息 。 


PRAAN 


。 天 于 子平 台 的 具体 实现 ， 请 参见 LLVM 源 码 中 的 
lib/Target/ARM/ARM Subtar_get.cpp 文 件 。 


多 指令 lowering 


我 们 用 实现 操作 32 位 立即 数 的 load 指 令 为 例 ， 用 两 个 指令 操作 高 
低位 来 实现 ，MOVW 移 动 低 16 位 立即 数 ， 清 除 高 16 位 ; MOVT 移 动 高 
16 位 立即 数 。 


详细 步骤 


实现 多 指令 lowering 有 多 种 方法 ， 我 们 可 以 用 伪 指 令 (pseudo- 
instruction) 或 者 在 选择 DAG 到 DAG 阶 段 完 成 。 


1. 如 有 果 不 用 伪 指 令 完 成 ， 先 定义 一 些 约束 一 一 两 条 指令 必须 是 有 
序 的 。 MOVW 清 除 高 16 位 ， 而 其 输出 可 以 被 MOVT 读 取 来 填充 目标 的 
高 16 位 。 在 tablegen 中 可 以 指定 这 个 约束 : 


def MOVLOi16 : MOV«0b1000, "movw", (ins i32imm:$imm), 

[(set 132:$dst, i32imm_lo:$imm) ]>; 
def MOVHIi16 : MOV«0b1010, "movt", (ins GRRegs:$src1, 
i32imm:$imm), 


[/* 没有 模式 */]»; 


第 2 种 方式 是 在 .td 文件 定义 伪 指 令 : 


def MOVi32 : InstTOY«(outs GRRegs:$dst), (ins i32imm:$src), "", 
[(set i32:$dst, (movei32 imm:$src))]> { 


let isPseudo - 1; 


2. JS thts *KTOY InstrInfo.cppOC f B — A H ERES Lower: 


bool 
TOYInstrInfo::expandPostRAPseudo(MachineBasicBlock::iterato 
r MI) const ( 
if (MI->getOpcode() == TOY::MOVi32)( 
DebugLoc DL = MI-»getDebugLoc(); 


MachineBasicBlock &MBB = *MI-»getParent(); 


const unsigned DstReg = MI-»getOperand(0).getReg(); 


const bool DstIsDead = MI-»getOperand(0).isDead(); 
const MachineOperand &MO = MI-»getOperand(1); 


auto LO16 - BuildMI(MBB, MI, DL, get(TOY::MOVLOi16), 


DstReg); 
auto HI16 = BuildMI(MBB, MI, DL, get(TOY::MOVHIi16)) 
.addReg(DstReg, RegState::Define | 
getDeadRegState(DstIsDead)) 


.addReg(DstReg); 


MBB.erase(MI); 


return true; 


3. 编译 整个 LLVM 项 目 : 
例如 ， 包 含 IR 的 ex.] 文件 如 下 : 


define i32 Qfoo(i32 %a) #0 { 
%b = add nsw i32 %a, 65537 ; 0x00010001 


ret i32 96b 
} 


得 到 的 汇编 码 如 下 : 


movw ri, £1 
movt ri, #1 
add rO, ro, ri 
b 1r 


工作 原理 


第 1 条 指令 movw， 移 动 低 16 位 的 1 并 清除 高 1 人 位， 于 是 在 rL1 中 第 1 
条 会 写 入 0x00000001。 下 一 条 指令 movt， 会 写 高 16 位 ， 于 是 在 r1 中 会 
Æ 入 0x0001XXXX (没有 改变 低 16 位 ) 。 最 终 ，r1 的 值 是 
0x00010001。 事 实 上， 任何 时 候 在 .td 文件 中 遇 到 伪 指 令 ， 都 会 调用 它 
的 扩展 函数 来 展开 伪 指 令 。 


在 前 面 的 例子 中 ，mov32 立 即 数 通过 两 条 指令 来 实现 : movw ( 低 
16 位 ) 和 movt (高 16 位 ) 。 在 .td 文件 中 它 被 标记 为 伪 指 令 ， 如 果 需 要 
发 射 这 条 伪 指 令 ， 就 会 调用 它 的 扩展 函数 ， 接 着 构建 两 条 机 器 指令 
MOVLOi16 和 MOVHIi16。 这 两 条 指令 对 应 了 目标 架构 的 movw 和 movt 


指令 。 


PRAAN 


e 大 于 多 指令 lowering 的 详细 信息 ， 请 参见 LLVM 源 码 中 的 ARM 日 
标 平台 的 实现 ，lib/Target/ARM/ARMInstrInfo.td 文 件 。 


STZ Za w 
平台 注册 
如 果 要 在 TOY 目 标 架 构 中 运行 lc 工具 ， 还 需要 把 TOY 注 册 到 1lc 工 


具 。 本 市 介绍 修改 配置 文件 来 注册 目标 平台 。 同 样 ， 本 市 会 修改 构建 
PE 


详细 步骤 


HÁTA PAPER, NEH im FEE AIR TP: 
1. 首先 在 llvm_root_divCMakeLists.txt 中 加 入 TOY 后 端的 条 目 : 


set(LLVM ALL TARGETS 
AArch64 


ARM 


TOY 


2. fA Je f£llvm root dir/include/llvm/ADT/Triple.h F Jl A TOY B5 & 
H: 


class Triple ( 
public: 


enum ArchType { 


UnknownArch, 
arm, // ARM (little endian): arm, armv.*, xscale 
armeb, // ARM (big endian): armeb 


aarch64, // AArch64 (little endian): aarch64 


toy // TOY: toy 
}; 


3. ZEllvm_root_dir/include/Ilvm/MC/MCExpr.h'# JHA TOY H: 


class MCSymbolRefExpr : public MCExpr { 
public: 


enum VariantKind { 


VK_TOY_LO, 
VK_TOY_HI, 
}; 


4. T£llvm. root. dir/include/llvm/Support/ELF.h F fil ATOY & H : 


enum { 
EM NONE = 0, // 非 平台 
EM M32 = 1, // AT&T WE 32100 
EM TOY = 220 // 是 下 一 个 数 

) 


5. 然后 ， 在 lib/MC/MCExpr.cpp 中 加 入 TOY 条 目 : 


StringRef MCSymbolRefExpr::getVariantKindName(VariantKind 
Kind) { 


switch (Kind) { 


case VK TOY LO: return "TOY LO"; 


case VK TOY HI: return "TOY HI"; 
} 


6. 接着 ， 在 lib/Support/Triple.cpp 中 加 入 TOY 条 目 : 


const char *Triple::getArchTypeName(ArchType Kind) ( 


switch (Kind) { 


case toy: return "toy"; 


const char *Triple::getArchTypePrefix(ArchType Kind) { 


switch (Kind) { 


case toy: return "toy"; 


j 


Triple::ArchType Triple: :getArchTypeForLLVMName(StringRef 


Name) { 


.Case( "toy", toy) 


static Triple::ArchType parseArch(StringRef ArchName) { 


.Case( "toy", Triple::toy) 


static unsigned 


getArchPointerBitWidth(llvm::Triple::ArchType Arch) { 


case llvm::Triple::toy: 


return 32; 


Triple Triple::get32BitArchVariant() const { 


case Triple::toy: 


// 已 经 是 32 位 


break; 


Triple Triple::get64BitArchVariant() const { 


case Triple::toy: 
T.setArch(UnknownArch); 


break; 


7. 在 lib/TargeVLLVMBnuild.txt 中 加 入 TOY 条 目 : 


[common] 


subdirectories - ARM AArch64 CppBackend Hexagon MSP430 ... 


TOY 


8. 在 lib/Target/TOY 目 录 下 创建 TOY.h 文 件 : 


#ifndef TARGET_TOY_H 
#define TARGET_TOY_H 


#include "MCTargetDesc/TOYMCTargetDesc.h" 


#include "llvm/Target/TargetMachine.h" 


namespace llvm ( 
class TargetMachine; 


class TOYTargetMachine; 


FunctionPass *createTOYISelDag(TOYTargetMachine &TM, 


CodeGenOpt::Level OptLevel); 


) // 结束 11vm 命 名 空间 


Zendif 


9. frlib/Targe/TOY 目录 创建 TargetInfo 目录 ， 在 其 中 创建 
TOYTargetInfo.cpp 文 件 : 


#include "TOY.h" 
#include "llvm/IR/Module.h" 
#include "llvm/Support/TargetRegistry.h" 


using namespace llvm; 


Target llvm::TheTOYTarget; 

extern "C" void LLVMInitializeTOYTargetInfo() { 
RegisterTarget«Triple::toy» X(TheTOYTarget, "toy", 
"TOY" ); 


10. 在 相同 的 目录 中 创建 CMakeLists.txt 文 件 : 


add llvm library(LLVMTOYInfo 


TOYTargetInfo.cpp 
) 


11. 创建 LLYMBuild.txt 文 件 : 


[component 90] 

type - Library 

name - TOYInfo 

parent - TOY 

required libraries - Support 


add to library groups - TOY 


12. #£lib/Target/TOY H 3&8 TOY TargetMachine.cpp CF: 


Zinclude "TOYTargetMachine.h" 
#include "TOY.h" 

#include "TOYFrameLowering.h" 
Zinclude "TOYInstrInfo.h" 
#include TOYISelLowering.h" 
#include "TOYSelectionDAGInfo 
#include "llvm/CodeGen/Passes 
#include "llvm/IR/Module.h" 


#include "llvm/PassManager.h" 


.h" 
.h" 


Zinclude "llvm/Support/TargetRegistry.h" 


using namespace llvm; 


TOYTargetMachine::TOYTargetMachine(const Target 


&T, 


StringRef 


TT, 
StringRef CPU, StringRef FS, const TargetOptions &Options, 
Reloc::Model RM, CodeModel::Model CM, 
CodeGenOpt::Level OL) 
LLVMTargetMachine(T, TT, CPU, FS, Options, RM, CM, 
OL), 
Subtarget(TT, CPU, FS, *this) { 


initAsmInfo(); 


namespace { 
class TOYPassConfig : public TargetPassConfig { 
public: 
TOYPassConfig(TOYTargetMachine *TM, PassManagerBase &PM) 


TargetPassConfig(TM, PM) {} 


TOYTargetMachine &getTOYTargetMachine() const ( 


return getTM«TOYTargetMachine»(); 


virtual bool addPreISel(); 
virtual bool addInstSelector(); 
virtual bool addPreEmitPass(); 
u 
3 // 命名 空间 


TargetPassConfig 


*TOYTargetMachine::createPassConfig(PassManagerBase &PM) ( 


return new TOYPassConfig(this, PM); 


bool TOYPassConfig::addPreISel() { return false; } 


bool TOYPassConfig::addInstSelector() { 
addPass(createTOYISelDag(getTOYTargetMachine(), 
getOptLevel())); 


return false; 


bool TOYPassConfig::addPreEmitPass() ( return false; } 


// 强制 静态 初始 化 
extern "C" void LLVMInitializeTOYTarget() { 


RegisterTargetMachine<TOYTargetMachine> X(TheTOYTarget); 


void TOYTargetMachine::addAnalysisPasses(PassManagerBase 


&PM) {3 


13. 创建 一 个 新 的 目录 MCTargetDesc， 在 其 中 创建 文件 
TOYMCTargetDesc.h: 


#ifndef TOYMCTARGETDESC_H 
#define TOYMCTARGETDESC_H 


#include "llvm/Support/DataTypes.h" 


namespace llvm { 
class Target; 

class MCInstrInfo; 
class MCRegisterInfo; 
class MCSubtargetInfo; 
class MCContext; 
class MCCodeEmitter; 
class MCAsmInfo; 
class MCCodeGenInfo; 
class MCInstPrinter; 
class MCObjectWwriter; 


class MCAsmBackend; 


class StringRef; 


class raw ostream; 


extern Target TheTOYTarget; 


MCCodeEmitter *createTOYMCCodeEmitter(const MCInstrInfo &MCII, 


const MCRegisterInfo &MRI, const MCSubtargetInfo &STI, 


MCContext 


&Ctx); 


MCAsmBackend *createTOYAsmBackend(const Target &T, const 


MCRegisterInfo &MRI, StringRef TT, StringRef CPU); 
MCObjectWriter *createTOYELFObjectWwriter(raw ostream &OS, 


uint8 t OSABI); 


) // 结束 11vm 命 名 空间 


#define GET REGINFO ENUM 


#include "TOYGenRegisterInfo.inc" 


#define GET INSTRINFO ENUM 


Zinclude "TOYGenInstrInfo.inc" 


Zdefine GET SUBTARGETINFO ENUM 


#include "TOYGenSubtargetInfo.inc" 


#endif 


14. 在 相同 的 目录 下 创建 TOYMCTaretDesc.cpp 文 件 : 


#include "TOYMCTargetDesc.h" 

#include "InstPrinter/TOYInstPrinter.h" 
#include "TOYMCAsmInfo.h" 

#include "llvm/MC/MCCodeGenInfo.h" 
#include "llvm/MC/MCInstrInfo.h" 
#include "llvm/MC/MCRegisterInfo.h" 


#include "llvm/MC/MCSubtargetInfo.h" 


#include 
#include 
#include 


#include 


"llvm/MC/MCStreamer .h" 
"llvm/Support/ErrorHandling.h" 
"llvm/Support/FormattedStream.h" 


"llvm/Support/TargetRegistry.h" 


#define GET INSTRINFO MC DESC 


#include 


"TOYGenInstrinfo. inc" 


#define GET_SUBTARGETINFO_MC_DESC 


#include 


"TOYGenSubtargetInfo.inc" 


#define GET REGINFO MC DESC 


#include "TOYGenRegisterInfo.inc" 


using namespace llvm; 


static MCInstrinfo *createTOYMCInstrInfo() { 


MCInstrlInfo *X = new MCInstrInfo(); 


InitTOYMCInstrInfo(X); 


return X; 


i 


static MCRegisterInfo *createTOYMCRegisterInfo(StringRef 


TT) { 


MCRegisterInfo *X - new MCRegisterInfo(); 


InitTOYMCRegisterInfo(X, TOY::LR); 


return X; 


static MCSubtargetInfo *createTOYMCSubtargetInfo(StringRef 
TT, StringRef CPU, 
StringRef 
FS) { 
MCSubtargetInfo *X = new MCSubtargetInfo(); 
InitTOYMCSubtargetInfo(X, TT, CPU, FS); 


return X; 


static MCAsmInfo *createTOYMCAsmInfo(const MCRegisterInfo 
&MRI, StringRef TT) { 
MCAsmInfo *MAI = new TOYMCAsmInfo(TT); 


return MAI; 


static MCCodeGenInfo *createTOYMCCodeGenInfo(StringRef TT, 
Reloc::Model RM, 
CodeModel: :Model 
CM, 
CodeGenOpt : :Level 


MCCodeGenInfo *X - new MCCodeGenInfo(); 
if (RM -- Reloc::Default) ( 


RM - Reloc::Static; 


if (CM == CodeModel::Default) { 


CM - CodeModel::Small; 

} 

if (CM !- CodeModel::Small && CM !- CodeModel::Large) { 
report fatal error("Target only supports CodeModel 


Small or Large"); 


j 


X->InitMCCodeGenInfo(RM, CM, OL); 


return X; 


static MCInstPrinter * 
createTOYMCInstPrinter(const Target &T, unsigned 
SyntaxVariant, 
const MCAsmInfo &MAI, const 
MCInstrInfo &MII, 
const MCRegisterInfo &MRI, const 
MCSubtargetInfo &STI) ( 


return new TOYInstPrinter(MAI, MII, MRI); 


static MCStreamer * 

createMCAsmStreamer(MCContext &Ctx, formatted raw ostream 

&OS, bool isVerboseAsm, bool useDwarfDirectory,MCInstPrinter 
*InstPrint, MCCodeEmitter *CE,MCAsmBackend *TAB, bool ShowInst) 
t 


return createAsmStreamer(Ctx, OS, isVerboseAsm, 


useDwarfDirectory, InstPrint, CE, TAB, ShowInst); 
} 


static MCStreamer *createMCStreamer(const Target &T, 
StringRef TT, 
MCContext &Ctx, 
MCAsmBackend &MAB, 
raw ostream &OS, 
MCCodeEmitter *Emitter, 
const MCSubtargetInfo 
&STI, 
bool RelaxAll, 
bool NoExecStack) { 
return createELFStreamer(Ctx, MAB, OS, Emitter, false, 


NoExecStack); 


// 强制 静态 初始 化 
extern "C" void LLVMInitializeTOYTargetMC() 007B 


// 注册 MC asm 信 息 


RegisterMCAsmInfoFn X(TheTOYTarget, createTOYMCAsmInfo); 


// 注册 MC _ codegen 信 息 


TargetRegistry::RegisterMCCodeGenInfo(TheTOYTarget, 


createTOYMCCodeGenInfo); 


// 注册 MC 指令 信息 


TargetRegistry::RegisterMCInstrInfo(TheTOYTarget, 


createTOYMCInstrInfo); 


// 注 册 MC 寄 存 器 信息 
TargetRegistry::RegisterMCRegInfo(TheTOYTarget, 


createTOYMCRegisterInfo); 


// 注册 MC 子平 台 信息 
TargetRegistry: :RegisterMCSubtargetInfo(TheTOYTarget, 


createTOYMCSubtargetInfo); 


// 注册 MCInstPrinter 


TargetRegistry::RegisterMCInstPrinter(TheTOYTarget, 
createTOYMCInstPrinter); 

// 注册 ASM 后 端 

TargetRegistry: :RegisterMCAsmBackend(TheTOYTarg0065t, 


createTOYAsmBackend); 


// 注册 assembly streamer 
TargetRegistry::RegisterAsmStreamer(TheTOYTarget, 


createMCAsmStreamer ); 


// 注册 object streamer 
TargetRegistry::RegisterMCObjectStreamer(TheTOYTarget, 


createMCStreamer); 


// 注册 MCCodeEmitter 


TargetRegistry::RegisterMCCodeEmitter(TheTOYTarget, 


createTOYMCCodeEmitter); 


15. 在 相同 的 目录 中 创建 LLYMBuild.txt 文 件 : 


[component 0] 

type - Library 

name - TOYDesc 

parent - TOY 

required libraries - MC Support TOYAsmPrinter TOYInfo 


add to library groups - TOY 


16. 创建 CMakeLists.txt 文 件 : 


add 1lvm library(LLVMTOYDesc 


TOYMCTargetDesc.cpp) 


工作 原理 


构建 整个 LLVM 项 目 ， 如 下 : 


$ cmake llvm src dir -DCMAKE BUILD TYPE-Release - 
DLLVM TARGETS TO BUILD-"TOY" 


$ make 


这 里 我 们 指定 了 为 TOY 目 标 平台 构建 LLYM 编 译 絮 ， 在 构建 完成 
后 ， 通 过 lc 命令 可 以 检查 LLVM 是 否 支 持 TOY 目 标 平台 : 


$ llc -version 


Registered Targets : 


toy - TOY 


PRAAN 


。 天 于 复杂 目标 平台 的 更 多 知识 ， 例 如 流水 线 、 调 度 ， 请 参见 Chen 
Chung-Shu 和 Anoushe Jamshidi 写 的 Tutorial: Creating an LLVM 
Backend for the Cpu0 Architecture PINES © 


[1] 指令 编码 : 之 前 说 的 汇编 码 指 的 是 具有 可 读 性 的 代码 ， 但 这 种 
形式 的 缺陷 在 于 不 够 紧 读 ， 占 据 的 空间 会 比较 大 ， 因 此 常常 还 需要 对 
其 进行 编码 ， 得 到 更 加 紧 凌 的 表示 。 这 如 同 LLVM IR 和 bitcode 的 关 
系 。 译 者 注 


Soe LLVM 项 目 最 佳 实践 


KEK DA Pi: 


。LLVM 中 的 异常 处 理 

。 使 用 sanitizer 

。 使 用 LLVM 编 写 垃 圾 回收 恬 
。 将 LLVM IR 转 换 为 JavaScript 
。 使 用 Clang 静 态 分 析 器 

。 使 用 bugpoint 

。 使 用 LLDB 

。 使 用 LLVM 通 用 Pass 


概述 


到 目前 为 止 ， 你 已 经 学 了 如 何 编写 编译 占 的 前 痢 、 优 化 器 以 及 后 
癌 。 在 本 书 的 最 后 一 革 ， 我 们 来 看 看 LLVM 的 其 他 特性 ， 以 及 如 何在 
我 们 的 项 目 中 使 用 。 本 万 的 主要 目的 是 让 你 了 解 LLVM 中 一 些 重要 的 
工具 和 技术 ， 它 们 往往 是 LLVM 的 热点 。 因 此 ， 不 会 深入 介绍 每 一 个 
主题 的 细节 。 


LLVM 中 的 异常 处 理 


KT SP ZA LLVM AY RR EHLE « FATA TELLVM IR 如 何 表示 
TUAE. DDELLVMTEÉDLBSAT-ROR AN EEH TA ERY 


准备 工作 


你 需要 知道 异常 处 理 是 如 何 正 常 运作 的 ， 以 及 try、catch、throw 
等 一 些 概念 。 同 时 你 需要 在 PATH 安装 Clang 和 LLVM 。 


详细 步骤 


让 我 们 从 一 个 具体 的 例子 来 看 看 LLVM 中 的 异常 处 理 。 
1. 创建 一 个 文件 来 编写 源码 ， 以 测试 异常 处 理 机 制 : 


$ cat eh.cpp 

class Ex1 {}; 

void throw exception(int a, int b) { 
Ex1 ex1; 
if (a > b) { 


throw ex1; 


int test try catch() { 


try { 


throw exception(2, 1); 


} 
catch(...) { 


return 1; 


} 


return 0; 


2. 使 用 以 下 命令 来 生成 bitcode 文 件 : 


$ clang -c eh.cpp -emit-llvm -o eh.bc 


3. EER EER, PUTA Pip m, HME: 


$ llvm-dis eh.bc -o - 
; ModuleID = 'eh.bc' 
target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128" 


target triple - "x86 64-unknown-linux-gnu" 


%Class.Ex1 = type { 18 } 


@ ZTVN10 cxxabiv117 class type infoE = external global i8* 
@_ZTS3Ex1 = linkonce odr constant [5 x 18] c"3Ex1\00" 
@_ZTI3Ex1 = linkonce odr constant { i8*, i8* } ( i8* bitcast 


(i8** getelementptr inbounds (i8** @ ZTVN10 cxxabivi17 class __ 


type infoE, i64 2) to i8*), i8* 


getelementptr inbounds ([5 x 18]* @ ZTS3Ex1, 132 0, i32 0) } 


; Function Attrs: uwtable 
define void @ Z15throw exceptionii(i32 %a, 132 %b) #0 { 
%1 = alloca i132, align 4 
%2 = alloca i132, align 4 
%ex1 = alloca %class.Ex1, align 1 
store i32 %a, 132* %1, align 4 
store i32 %b, 132* %2, align 4 
%3 = load 132* %1, align 4 
%4 = load 132* %2, align 4 
%5 = icmp sgt i32 %3, %4 


br i1 X5, label %6, label %9 


; <label>:6 ; preds = %0 

%7 = call i8* @ cxa allocate exception(i64 1) #1 

%8 = bitcast 18* %7 to %class.Ex1* 

call void @ cxa throw(i8* %7, 18* bitcast (( i8*, 18* }* 
@_ZTI3Ex1 to i8*), i8* null) #2 


Unreachable 


; <label>:9 ; preds = %0 
ret void 


} 


declare i8* @ cxa allocate exception(i64) 


declare void Q cxa throw(i18*, i8*, i8*) 


; Function Attrs: uwtable 
define i32 Q Zi4test try catchv() #0 { 
%1 = alloca i32, align 4 
%2 = alloca i8* 
%3 = alloca i32 
%4 = alloca i32 
invoke void Q Z15throw exceptionii(i32 2, 132 1) 


to label %5 unwind label %6 


; <label>:5 ; preds - *0 
br label %13 


; <label>:6 ; preds = %0 

%7 = landingpad { i8*, i32 } personality i8* bitcast (i32 
(...)* @ gxx personality vo to i8") 

catch i8* null 

%8 = extractvalue { i8*, i32 } %7, 0 

store 18* %8, i8** %2 

%9 = extractvalue { 18*, 132 } %7, 1 

store 132 %9, 132* %3 


br label %10 


; <label>:10 ; preds = %6 
%11 = load i8** %2 


%12 = call i8* Q cxa begin catch(i8* %11) #1 


store 132 1, 132* %1 
store 132 1, 132* %4 


call void Q cxa end catch() 


br label %14 


; <label>:13 ; preds = %5 
store 132 0, 132* %1 
br label %14 

; <label>:14 

%13, %10 ; preds = 
%15 = load i32* %1 


ret i32 %15 


declare i32 Q gxx personality vo(...) 


declare i8* Q cxa begin catch(i8*) 


declare void Q cxa end catch() 


attributes #0 = { uwtable "less-precise-fpmad"="false" "no- 
frame-pointer-elim"="true" "no-frame-pointer-elim-non-leaf" 
"no-infs-fp-math"="false" "no-nans-fp-math"="false" "stack- 
protector-buffer-size"="8" "unsafe-fp-math"="false" "use-soft- 
float"="false" } 

attributes #1 = { nounwind } 


attributes #2 = { noreturn } 


!llvm.ident = ![!0) 


!0 = metadata !{metadata !"clang version 3.6.0 (220636)"} 


工作 原理 


LLVM 是 这 样 实现 异常 的 ， 当 异常 被 抛 出 ， 运 行 时 (runtime) 会 
Er Fi Sb Eber oe ERARI Fe A HIBA EN BON RISE, mX 
A RES REESE TT DAAR, HOERA, TA EAR 
则 包 合 了 异常 处 理 的 具体 实现 ， 也 就 是 如 琳 这 站 编程 语言 文 持 异常 处 
理 ， 抛 出 异常 时 如 何 处 理 。 如 果 这 门 语言 不 文 持 异常 处 理 ， 那 么 关于 
如 何 展开 当前 活动 记录 和 还 原 前 一 个 活动 记录 的 状态 的 相关 信息 则 会 
在 异常 帧 中 。 


让 我 们 通过 之 前 的 例子 来 看 看 异 当 处理 在 LLVM 中 是 如 何 具体 实 
现 的 。 


try 区 块 在 LLVM 中 被 翻译 成 invoke 指 令 : 


invoke void @ Z15throw exceptionii(i32 2, 132 1) 


to label %5 Unwind label %6 


EARE d Vr FÉ gs UI SR throw_exception KELL HH e$, EM 
该 如 何 处 理 这 个 异常 。 如 果 throw_exception 没 有 抛 出 异常 ， 正 常 执 行 


Wk #2 Fl label %5， 否 则 跳 转 到 label %6， 即 landing pad, IXA T 
try/catch 中 的 catch 机 制 。 如 果 程 序 执行 在 landing pad E BTF eR, EAH 
收 一 个 异常 结构 体 ， 以 及 与 抛 出 的 异常 类 型 对 应 的 选择 器 的 值 。 这 个 
选择 器 用 于 决定 哪 一 个 catch 芳 数 来 真正 处 理 这 个 异常 。 在 本 例 中 ， 它 
看 起 来 像 这 样 : 


%7 = landingpad { i8*, i32 } personality i8* bitcast (132 
(ean 
@ gxx personality vo to i8*) 


catch 18* null 


96735 — Ex R3 Ti T r$ fu © (8*, i32} 部 分 描述 异常 类 型 ， 
iS*e BEL. Mien 6 XebEnSHJIH * LEL ERA Mast 
de HJ fa, Pr LÀ catch K KA B PTS Hb RM BÉ e 
(2 gxx personality vOEN Zi personality NA, CRS HRN E PX 

(context) ， 即 一 个 包含 异常 对 象 类 型 和 值 的 异常 结构 体 ， 以 及 一 个 
当前 函数 异常 表 的 引用 。 当 前 编译 单元 的 personality 函 数 在 公共 异 冲 帧 
指定 。 本 例 中 ，Q@ gxx_personality_v0 芳 数 则 表示 我 们 在 处 理 C++ 异 


= 


吊 o 


所 以 %8 = extractvalue ( i8*, i32 ) 967, 0 表示 异常 对 象 ， 而 %9 = 
extractvalue ( i8*, i32 ) 967, 1 则 表示 选择 器 值 。 


下 面 是 一 些 值 得 注意 的 IR 画 数 。 


e cxa thorw: 用 于 抛 出 异种 的 函数 。 
e  cxa begin catch: 接受 一 个 异常 结构 体 的 引用 作为 参数 ， 返 回 
异常 对 象 的 值 。 


e  cxa end catch: 处 理 最 近 捕 捉 的 异常 ， 减 少 handler 计 数 ， 如 果 
计数 为 0 则 停止 异常 捕捉 。 


TRA I 


e 大 于 LLVM 的 异常 格式 ， 请 参见 http://llvm.org/docs/ExceptionHand- 


ling.html#llvm-code-generation ° 


fi FA sanitizer 


如 宁 你 有 过 内 存 调试 的 经 验 ， 那 么 你 应 该 用 过 Valgrind 这 样 的 工 
具 。 同 样 ，LLVM 也 提供 了 内 存 调 试 的 工具 ， 例 如 地 址 sanitizer、 内 存 
sanitizer 等 。 这 些 工 具 虽 然 没 有 Valgrind 那 么 成 熟 ， 但 是 相 比 之 下 速度 
更 快 。 这 些 工具 大 部 分 都 还 在 开发 实验 阶段 ， 所 以 你 也 可 以 参与 这 些 
开源 软件 的 开发 。 


准备 工作 


如 果 要 使 用 sanitizer， 需 要 从 LLVM SVN 把 compiler-rt 的 代码 检 出 
EE 


cd llvm/projects 
svn CO http://llvm.org/svn/llvm-project/compiler-rt/trunk 


compiler-rt 


如 第 1 草 “LLVM 设 计 与 使 用 ”所 描述 的 ， 重 新 构建 LLVM， 这 样 我 
们 束 能 获得 所 需 的 运行 时 库 了 。 


详细 步骤 


执行 以 下 步 又， 测试 地 址 sanitizer 。 


1. 编写 测试 实例 ， 检 查 地 址 sanitizer: 


$ cat asan.c 

int main() ( 

int a[5]; 

int index - 6; 

int retval - a[index]; 
return retval; 


} 


2. 使 用 fsanitize=address 命 令 行 参数 编译 测试 代码 ， 以 使 用 地 址 


sanitizer: 


$ clang -fsanitize-address asan.c 


3. 使 用 以 下 命令 执行 地 址 sanitizer: 


$ ASAN SYMBOLIZER PATH-/usr/local/bin/llvm-symbolizer ./a.out 


输出 如 下 : 


mayur@vaio-linux:-/book/chap9$ ASAN_SYMBOLIZER PATH=/usr/local/bin/llvm-symbolizer ./a.out 


6x4d406a in main (/home/mayur/book/chap9/a.out+0x4d406a) 
0x7f8673850ec4 in  libc start main /build/buildd/eglibc-2.19/csu/libc-start.c:287 
2 0x4176a5 in start (/home/mayur/book/chap9/a.out+0x4176a5) 


#0 Ox4d3f4f in main (/home/mayur/book/chap9/a.out«Ox4d3f4f) 


This frame has 1 object(s): 
[32, 52) 'a' ` 
HINT: this may be a false positive if your Ee uses some custom stack unwind mechanism or swapcontext 
(longjmp and C++ exceptions *are* supported) 
SUMMARY: AddressSanitizer: stack-buffer-overflow (/home/mayur/book/chap9/a.out+0x4d406a) in main 
Shadow bytes around the buggy address: 
0x100064e703e0: oe 00 oo 
0x100064e703f0: 00 00 00 
60x100064e70400: 00 00 00 
0x100064e70410: 00 00 00 
0x100064e70420: 00 00 00 
=>0x100064e70430: 04[f3] 
0x100064e70440: 00 00 00 
0x100064e70450: 00 00 00 
0x100064e70460: 00 00 00 
0x100064e70470: 00 00 00 
0x100064e70480: 00 00 00 
Shadow byte legend (one shadow byte represents 8 application bytes): 
Addressable: 00 
Partially addressable: 01 02 03 04 05 06 07 
Heap left redzone: 
Heap right redzone: 
Freed heap region: 
Stack left redzone: 
Stack mid redzone: 
Stack right redzone: 
Stack partial redzone: 
Stack after return: 


工作 原理 


LLVM 地 址 sanitizer 的 工作 原理 是 将 代码 仪表 化 。 这 个 工具 由 编译 
句 仪 表 化 模块 和 运行 时 库 组 成 。 代 码 仪表 化 部 分 的 工作 由 LLVM Pass 
完成 ， 由 命令 行 参 数 fsanitize= address 唤 起 ， 检 查 每 一 条 指令 ， 之 前 的 
例子 已 经 展示 。 而 运行 时 | 过 则 把 代码 中 的 malloc 和 free 画 数 符 换 为 目 定 
义 的 代码 。 在 我 们 进一步 讨论 如 何 进 行 代码 仪表 化 之 前 ， 我 们 先 来 看 
看 虚拟 地 址 空间 如 何 分 为 两 个 独立 的 类 : 一 块 是 主 应 用 内 存 ， 由 常规 
的 应 用 代码 使 用 ; 另 一 块 是 shadow 内 存 ， 包 含 shadow 值 (元 数据 ) 。 


shadow 内 存 和 主 应 用 内 存 是 相互 关联 的 ， 使 用 主 内 存 中 的 一 个 地 
址 意味 着 相应 地 在 shadow 内 存 写 入 一 个 特殊 值 。 


让 我 们 回 到 地 址 sanitizer，malloc 函 数 分 配 的 地 址 我 们 称 之 为 污染 
过 的 ， 而 free 函 数 释放 的 地 址 会 放 在 隔离 区 ， 也 十 污 染 过 的 。 程 序 中 
每 一 个 内 存 访问 会 被 编译 峰 进 行 如 下 转换 。 


首先 ， 地 址 像 这 样 : 


*address = ...; 


在 转换 之 后 ， 变 成 : 


if (IsPoisoned(address)) ( 
ReportError(address, kAccessSize, kIsWrite); 


j 


*address = ...; 
这 意味 着 ， 如 果 存 在 非法 访问 内 存 ， 束 会 报错 。 


在 前 面 的 例子 中 ， 我 们 为 缓冲 区 次 出 写 了 一 段 代码 ， 发 生 数 组 访 
问 越界 了 。 这 里 ， 数 组 前 后 的 地 址 都 进行 了 代码 仪表 化 的 工作 。 当 试 
图 访问 数组 上 界 之 外 的 内 容 时 ， 即 访问 红色 区 域 ， 地 址 sanitizer 就 会 报 


告 stack buffer overflowtE ix © 


FDD 


e 关于 地 Hb sanitizer 的 x 档 , 请 $2 M 
http://clang.llvm.org/docs/Address-Sanitizer.html ° 

e 天 于 LLVM 中 使 用 的 其 他 sanitizer， 请 参见 : 
http://clang.llvm.org/docs/MemorysSanitizer.html 
http://clang.llvm.org/docs/ThreadSanitizer.html 


https://code.google.com/p/address-sanitizer/wiki/LeakSanitizer 
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垃圾 回收 (Garbage collection) 是 一 种 由 垃圾 回收 器 (Garbage 
Collector) 自动 回收 不 再 使 用 的 对 象 内 存 的 内 存 管理 技术 ， 这 减 小 了 
程序 员 记 录 堆 区 对 象 生 命 周 期 的 压力 。 


本 市 介绍 如 何 把 LLVM 整 合 到 一 个 支持 垃圾 回收 的 语言 中 去 。 
LLVM 目 喘 不 提供 垃圾 回收 絮 ， 但 古 提 供 了 一 个 描述 垃圾 回收 器 的 框 
架 ， 以 便于 程序 员 编 写 目 己 的 垃圾 回收 絮 。 


准备 工作 
必须 构建 和 安装 LLVM 。 
详细 步骤 


下 面 展示 包含 垃圾 回收 内 建 男 数 的 LLVM IR 代 码 如 何 转 到 相应 的 
机 器 汇编 代码 。 


1. 编写 测试 代码 : 


$ cat testgc.11 


declare i8* Qllvm gc allocate(i32) 


declare void Qllvm gc initialize(i32) 


declare void Qllvm.gcroot(i8**, 18*) 


declare void Qllvm.gcwrite(i8*, i8*, i8**) 


define i32 @main() gc "shadow-stack" ( 
entry: 
%A = alloca i8* 


%B = alloca i8** 


call void Qllvm gc initialize(i32 1048576) ; Start with 1MB 


heap 


;; void *A; 


call void Qllvm.gcroot(i8** %A, i8* null) 


;; A = gcalloc(10); 
%Aptr = call 18* Qllvm gc allocate(i32 10) 


store 18* %Aptr, i8** %A 


;; void **B; 


%tmp.1 = bitcast 18*** XB to i8** 


call void Qllvm.gcroot(i8** %tmp.1, i8* null) 


;; B = gcalloc(4); 

%B.upgrd.1 = call i8* Qllvm gc allocate(i32 8) 
%tmp.2 = bitcast 18* %B.upgrd.1 to i8** 

store 18** %tmp.2, 18*** %B 

77 “B= A; 

%B.1 = load 18**, 18*** XB 

%A.1 = load i8*, 18** %A 


call void Qllvm.gcwrite(i8* %A.1, i8* %B.upgrd.1, i8** %B.1) 


br label %AllocLoop 


AllocLoop: 
%i = phi i32 [ 0, %entry J], [ %indvar.next, %AllocLoop | 
;; Allocated mem: allocated memory is immediately dead. 


call 18* Qllvm gc allocate(i32 100) 

%indvar.next = add 132 %i, 1 

%exitcond = icmp eq i32 %indvar.next, 10000000 

br i1 %exitcond, label %Exit, label %AllocLoop 
Exit: 


ret 132 0 


declare void Q  main() 


2. 使 用 lc 工具 生成 汇编 码 ， 并 使 用 cat 命 令 查看 汇编 码 : 


$ llc testgc.11 


$ cat testgc.s 

.text 

.file "testgc.11" 

.globl main 

.align 16, 0x90 

„type main, @function 
main: # @main 
.Lfunc beginO: 

.cfi startproc 

.cfi personality 3, _ gcc personality vo 

.cfi_lsda 3, .LexceptionO 
4 BB#O: # %entry 

pushq %rbx 
.Ltmp9: 

.Cfi def cfa offset 16 

subq $32, %rsp 
.Ltmp10: 

.Cfi def cfa offset 48 
.Ltmp11: 


.Cfi offset %rbx, -16 


movq llvm gc root chain(%rip), %rax 
movq $ gc main, 8(%rsp) 
movq $0, 16(%rsp) 
movq %rax, (%rsp) 
leaq (%rsp), %rax 
movq %rax, llvm gc root chain(%rip) 
movq $0, 24(%rsp) 
.Ltmpo: 
movl $1048576, %edi # imm = 0x100000 
callq llvm_gc_initialize 
.Ltmp1: 
# BB#1: # %entry.cont3 
.Ltmp2: 
movl $10, %edi 
callq llvm gc allocate 
.Ltmp3: 
4 BBZ2: # %entry.cont2 
movq %rax, 16(%rsp) 
.Ltmp4: 
movl $8, %edi 
callq llvm gc a 
.Ltmp5: 
4 BB#3: # %entry.cont 
movq %rax, 24(%rsp) 
movq 16(%rsp), %rcx 
movq %rcx, (%rax) 


movl $10000000, %ebx 4 imm = 0x989680 


.align 16, 0x90 
.LBBO 4: # %AllocLoop 
# =>This Inner Loop 
Header: Depth=1 
.Ltmp6: 
movl $100, %edi 


callq llvm gc allocate 


.Ltmp7: 
# BB#5: # %AllocLoop.cont 

# in Loop: Header-BBO 4 
Depth=1 


decl %ebx 
jne .LBBO 4 
4 BB#6: # %Exit 
movq (%rsp), %rax 
movq %rax, llvm gc root chain(%rip) 
xorl %eax, %eax 
addq $32, %rsp 
popq %rbx 
retq 
.LBBO 7: 4 %ge cleanup 
.Ltmp8: 
movq (%rsp), %rcx 
movq %rcx, llvm gc root chain(%rip) 
movq %rax, %rdi 
callq Unwind Resume 


.Lfunc endO: 


‚size main, .Lfunc_end0-main 
.cfi endproc 
.section .gcc except table, 'a",Qprogbits 
.align 4 
GCC except tableO: 


.LexceptionO: 
.byte 255 4 QLPStart Encoding - omit 
.byte 3 4 QTType Encoding - udata4 
.asciz "\234" 4 @TType base offset 
.byte 3 4 Call site Encoding - udata4 
.byte 26 # Call site table length 
„long .Ltmp0-.Lfunc beginO # >> Call Site 1 << 
.long .Ltmp7-.LtmpO 4 Call between .LtmpO and 
.Ltmp7 
.long .Ltmp8-.Lfunc beginO # jumps to .Ltmp8 
.byte 0 # On action: cleanup 


.long .Ltmp7-.Lfunc beginO # >> Call Site 2 << 


„long .Lfunc end0-.Ltmp7 # Call between .Ltmp7 and 
. Lfunc_endo 

.long 0 # has no landing pad 

.byte 0 # On action: cleanup 

.align 4 


.type llvm gc root chain,Qobject 4 Qllvm gc root chain 
.bss 
.Weak llvm gc root chain 


.align 8 


llvm gc root chain: 
.quad 0 


.SIZe llvm gc root chain, 8 


.type . gc main,Qobject 4 @ gc main 


.section .rodata, "a",Qprogbits 


.align 8 

. gc main: 
.long 2 # 0x2 
.long 0 4 0x0 


.size _ gc main, 8 


.section ".note.GNU-stack","",Qprogbits 


工作 原理 


前 面 例子 的 主 函 数 中 ， 我 们 使 用 了 内 建 的 垃圾 回收 磺 全 略 shadow- 
stack， 它 会 维护 栈 roots0 的 链接 列表 : 


define 132 @main() gc "shadow-stack" 


TERI last ^ B n] AAE HAIKU DR, ARTE 
函数 名 后 面 指定 gc 策略 的 名 字 ， 例 如 gc"strategy name"， 策 略 名 字 可 以 
征 内 建 的 策略 ， 也 可 以 是 目 己 定义 的 垃圾 回收 策略 。 


为 了 发 现 GC root， 也 残 是 扒 区 对 象 的 指针 ，LLVM 使 用 了 内 建 函 
数 @llvm.gcroot， 或 者 .statepoint 重 定位 序列 。llvm.gcroot 内 建 函 数 通知 
LLVM 这 是 一 个 栈 上 变量 对 堆 区 对 象 的 引用 ， 垃 圾 回收 器 需要 跟 躁 这 
个 堆 区 对 象 。 下 面 的 代码 就 是 调用 llvm.gcroot 芳 数 来 标记 %tmp.1 栈 变 


E 


HÆ: 


call void @llvm.gcroot(i8** %tmp.1, i8* null) 


llvm.gcwrite 函 数 则 是 写 屏 障 (write barrier) ， 这 意味 着 使 用 了 垃 
圾 回收 的 程序 把 一 个 指针 写 到 堆 区 对 象 的 字段 中 ， 因 此 会 通知 垃圾 回 
收 左 。 于 此 相似 的 是 llvm.gcread，llvm.gcread 内 建 函 数 表示 程序 从 堆 区 
对 象 的 字段 读 一 个 指针 ， 也 会 通知 垃圾 回收 器 。 下 面 的 代码 将 %A.1 的 
值 写 入 %B.upgrd 推 区 对 象 。 


Call void Qllvm.gcwrite(i8* %A.1, 18* %B.upgrd.1, 18** %b.1) 


BEER, LVM EA, TEMSE Sif 
的 一 部 分 。 之 前 的 例子 展示 了 LLVM 为 描述 垃圾 回收 器 提供 的 必要 
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http://llvm.org/docs/GarbageCollection.html ° 


。 关于 其 他 的 垃圾 回收 方法 ， 请 参见 


http://llvm.org/docs/Statepoints.html ° 
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准备 工作 


执行 以 下 步骤 ， 把 LLVM IR 转 为 JavaScript。 


1. 我 们 使 用 emscripten 工 具 把 LLVM IR 转 为 JavaScript。 你 需要 先 
从 https://kripken. github.io/emscripten-site/docs/getting_started/down 
loads.html 下 载 SDK， 或 者 也 可 以 从 源码 构建 ， 但 仅仅 为 了 实验 ， 推 荐 
使 用 工具 链 中 的 SDK 。 


2. 在 下 载 SDK 之 后 ， 请 解压 并 切换 到 其 根 目 永 。 


3. 安装 default-jre、 nodejs、 cmake、build-essential、git 依 赖 。 


4. 执行 以 下 命令 安装 SDK: 


./emsdk update 
./emsdk install latest 


./emsdk activate latest 


5. 执行 .Jemscripten 脚 本 检查 是 否 有 正确 的 值 ， 否 则 进行 相应 的 更 
BT ° 


详细 步骤 


执行 以 下 步骤 。 


1. 编写 测试 代码 ， 以 进行 从 IR 到 JavaScript 的 转换 : 


$ cat test.c 


#include<stdio.h> 


int main() { 
printf("hi, user!\n"); 


return 0; 


2. 把 代码 转换 为 LLVM IR: 


$ clang -S -emit-llvm test.c 


3. 执行 amsdk_portable/emscripten/master 目 录 的 emcc 把 .1 文件 当 作 
输入 并 转 为 JavaScript: 


$ ./emcc test.11 


4. 输出 文件 是 a.out.js 文 件 ， 用 以 下 命令 执行 这 个 文件 : 


$ nodejs a.out.js 


hi, user! 


e EEM, WA https://github.com/kripken/emscripten ° 
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ARTS fr 28 Cang BF AS 27 9188 对 代码 进行 静态 分 析 。 它 基于 
Clang 和 LLVM 构 建 ， 它 使 用 的 静态 分 析 引 擎 是 一 个 Clang 库 ， 因 此 具有 
较 高 的 可 重用 性 ， 并 能 够 在 不 同 的 客户 端 中 使 用 。 


我 们 会 以 除 零 错误 为 例 ， 展 示 Clang 静 态 分 析 器 如 何 处 理 这 个 错 
误 。 


准备 工作 


你 需要 构建 并 安装 LLVM 和 Clang 。 


详细 步骤 


执行 以 下 步骤 o 
1. 创建 测试 文件 ， 编 写 以 下 测试 代码 : 


$ cat sa.c 
int func() { 
int a - 0; 


int b - 1/a; 


return b; 
} 

过 以 下 的 命令 行 选项 来 运行 Clang 静 态 分 析 器 ， 在 屏幕 上 得 到 
a 


$ clang -cc1 -analyze -analyzer-checker=core.DivideZero sa.c 
sa.c:3:10: warning: Division by zero 
int b - 1/a; 


一 八 一 


1 warning generated. 


工作 原理 


程序 会 被 静态 分 析 峰 核心 象征 性 地 执行 ， 程 序 的 输入 值 都 是 象征 
性 的 组 。 表 达 式 的 值 也 是 基于 输入 的 符号 和 路 径 计 算 的 。 代 码 的 执行 
征 与 路 径 相 关 的 ， 因 此 每 一 条 可 能 路 径 都 会 被 分 析 。 


执行 的 时 候 ， 执 行 轨 迹 由 爆炸 图 (exploded graph) 来 表示 ， 每 一 
个 ExplodedGraph 上 的 和 点 称 为 ExplodedNode， 它 由 一 个 ProgramState 
WR (表示 程序 的 抽象 状态 ) ， 以 及 一 个 ProgramPoint 对 象 (表示 程 
序 的 相应 地 址 ) ， 所 组 成 。 


对 于 每 一 种 类 型 的 bug， 都 有 一 个 对 应 的 checker。 在 构建 
ProgramsState 的 时 候 ， 每 个 checker 都 会 链接 到 分 析 器 的 核心 。 每 次 分 
析 引 擎 探测 一 个 新 的 语句 的 时 候 ， 它 会 通知 每 一 个 注册 的 checker 去 监 
听 这 个 语句 ， 给 它 报告 bug 或 者 修改 语句 的 机 会 。 


每 一 个 checker 则 会 注册 不 同 的 事件 和 回调 函数 ， 例 如 PreCall (在 
函数 调用 之 前 ) , DeadSymbols (fF SAR) 等 。 不 同 的 事件 会 通知 
不 同 的 checker， 它 们 也 会 执行 不 同 的 动作 。 


本 市 我 们 使 用 了 除 零 checker， 它 会 报告 除 零 的 错误 。 这 个 checker 
注册 了 PreStmt 回 调 ， 在 语句 执行 之 前 调用 。 检 查 下 一 条 语句 的 运算 
人 特 ， 如 末 古 除法 运算 符 ， 则 检查 除数 是 否 为 0， 如 有 果 找 到 可 能 的 值 则 报 
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使 用 bugpoint 


本 方 介绍 LLVM 提 供 的 一 个 有 用 的 工具 一 一 bugpoint。bugpoint 允 
许 我 们 减 小 LLVM 工 具 和 Pass 的 问题 规模 ， 在 调试 优化 如 有 衣 江 、 优 化 妖 
误 编译 、 坏 的 本 地 代码 生成 方面 会 很 有 效 。 通 过 它 ， 我 们 可 以 缩小 问 
题 的 规模 ， 在 一 个 较 小 的 测试 用 例 下 进行 研究 。 


准备 工作 


你 需要 构建 安 狼 LLVM 。 


详细 步骤 


执行 以 下 步骤 o 


1. 编写 bugpoint 工 具 的 测试 用 例 : 


$ cat crash-narrowfunctiontest.11 


define i32 Qfoo() { ret i32 1 } 


define i32 Qtest() { 
call i32 Qtest() 


ret 132 %1 


} 
define i32 @bar() { ret i32 2 } 


2. 在 测试 用 例 中 使 用 bugpoint 来 查看 结果 : 


$ bugpoint -load path-to-llvm/build/./lib/BugpointPasses. so 
crash-narrowfunctiontest.11 -output-prefix 
crash-narrowfunctiontest.ll.tmp -bugpoint-crashcalls -silence- 
passes 

Read input file : 'crash-narrowfunctiontest.11' 

*** All input ok 

Running selected passes on program to test for crash: Crashed: 
Aborted 

(core dumped) 


Dumped core 


*** Debugging optimizer crash! 

Checking to see if these passes crash: -bugpoint-crashcalls: 
Crashed: 

Aborted (core dumped) 


Dumped core 


*** Found crashing pass: -bugpoint-crashcalls 


Emitted bitcode to 'crash-narrowfunctiontest.ll.tmp-passes.bc' 


*** You can reproduce the problem with: opt 
crash-narrowfunctiontest.ll.tmp-passes.bc -load 
/home/mayur/LLVMSVN REV/ 
llvm/llvm/rbuild/./lib/BugpointPasses.so 


-bugpoint-crashcalls 


*** Attempting to reduce the number of functions in the 
testcase 

Checking for crash with only these functions: foo test bar: 
Crashed: 

Aborted (core dumped) 

Dumped core 

Checking for crash with only these functions: foo test: 
Crashed: Aborted 

(core dumped) 

Dumped core 

Checking for crash with only these functions: test: Crashed: 
Aborted (core 

dumped) 

Dumped core 

Emitted bitcode to 


'crash-narrowfunctiontest.ll.tmp-reduced-function.bc' 


*** You can reproduce the problem with: opt 
crash-narrowfunctiontest.ll.tmp-reduced-function.bc - load 
/home/mayur/ 


LLVMSVN REV/llvm/llvm/rbuild/./lib/BugpointPasses.so 


-bugpoint-crashcalls 

Checking for crash with only these blocks: : Crashed: Aborted 
(core dumped) 

Dumped core 

Emitted bitcode to  'crash-narrowfunctiontest.ll.tmp-reduced- 


blocks.bc' 


*** You can reproduce the problem with: opt 
crash-narrowfunctiontest.ll.tmp-reduced-blocks.bc - load 
/home/mayur/ 

LLVMSVN REV/llvm/llvm/rbuild/./lib/BugpointPasses.so 
-bugpoint-crashcalls 

Checking for crash with only 1 instruction: Crashed: Aborted 
(core dumped) 


Dumped core 


*** Attempting to reduce testcase by deleting instructions: 
Simplification Level #1 


Checking instruction: %1 = call 132 Qtest()Success! 


*** Attempting to reduce testcase by deleting instructions: 
Simplification Level #0 


Checking instruction: %1 = call 132 @test()Success! 


*** Attempting to perform final cleanups: Crashed: Aborted 
(core dumped) 


Dumped core 


Emitted bitcode to 


'crash-narrowfunctiontest.ll.tmp-reduced-simplified.bc' 


*** You can reproduce the problem with: opt 
crash-narrowfunctiontest.ll.tmp-reduced-simplified.bc -load 
/home/mayur/LLVMSVN REV/llvm/llvm/rbuild/./lib/BugpointPasses.s 
o 


-bugpoint-crashcalls 


3. 为 了 查看 简化 过 的 测试 用 例 ， 使 用 lvm-dis 命令 把 crash- 
narrowfunction- test.]]L.tmp-reduced-simplified.bc 文 件 转 为 1 形式 ， 然 后 
查看 缩小 的 测试 用 例 : 


$ llvm-dis crash-narrowfunctiontest.11.tmp-reduced- 
simplified.bc 
$ cat $ cat crash-narrowfunctiontest.11.tmp-reduced- 
simplified.11 
define void Qtest() { 

call void Qtest() 


ret void 


工作 原理 


bugpoint 工 具 会 执行 测试 程序 命令 行 中 的 所 有 Pass， 如 果 有 Pass 朋 
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Pass 列 表 ， 减 少 不 必 要 的 函数 ， 删 除 控制 流 图 上 的 边 ， 甚 至 会 把 测试 
程序 缩减 到 一 个 函数 。 之 后 ， 它 会 删除 与 月 溃 无 关 的 LLVM 指 令 。 最 
后 ， 它 简洁 明了 地 指出 了 导致 月 省 的 Pass， 以 及 已 徐 化 过 的 测试 用 
例 。 


如 果 没 有 指定 -output 选 项 ，bugpoint 会 在 一 个 "safe" 一 代 的 后 端 运 
行程 序 并 得 到 参考 输出 ， 然 后 比较 这 里 的 输出 和 选 定 的 代码 生成 万 的 
输出 。 如 果 发 生 朋 并 ， 会 调用 前 面 提 到 的 骨 浊 调试 右 。 除 此 之 外 ， 如 
果 代 码 生成 侨 产 生 的 输出 和 参考 输出 不 同 ， 会 局 动 代码 生成 侨 调 试 
妖 ， 它 的 简化 测试 用 例 的 技术 与 月 演 调 试 硕 相似 。 


最 后 ， 如 有 果 代 码 生 成 器 的 输出 和 参考 输出 相同 ，bugpoint 会 运行 
所 有 的 LLVM Pass 并 对 照 参考 输出 来 检查 输出 。 如 采 有 任何 的 不 匹 
配 ， 束 会 司 动 错误 编译 调试 硕 。 这 个 错误 编译 调试 套 在 工作 的 时 候 会 
把 测试 程序 分 成 两 块 ， 在 一 块 运行 优化 ， 然 后 把 两 块 链接 到 一 起 得 到 
结果 。 它 笑 试 把 问题 减 小 到 导致 错误 编译 的 那个 Pass， 然 后 精确 指出 
错误 的 测试 程序 的 位 置 。 最 后 输出 简化 过 的 导致 错误 编译 的 用 例 。 


在 之 前 的 测试 用 例 中 ，bugpoint 会 检查 所 有 函数 的 朋 演 情况 ， 最 
终 定 位 到 错误 出 在 测试 函数 中 。 它 也 会 莹 试 消化 函数 中 的 指令 。 在 检 
查 过 程 中 ， 每 一 阶段 的 输出 部 会 以 目 说 明 的 方式 显示 在 终端 上 。 最 
后 ， 产 生 一 个 简化 的 bitcode 格 式 的 测试 用 例 ， 我 们 能 把 它 转 为 LLVM 
IR 来 获得 简化 的 测试 用 例 。 


PRAN 
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使 用 LLDB 


本 节 介 绍 LLVM 提 供 的 调试 工具 一 一 LLDB。LLDB 是 新 一 代 的 高 
性 能 调试 器 ， 由 高 可 重用 性 的 一 系列 组 件 构成 ， 对 于 大 型 LLVM 项 目 
中 的 现存 库 是 有 优势 的 。 事 实 上 ， 你 会 发 现 它 和 gdb 调 试 工 具 非 常 相 
似 。 


准备 工作 


在 使 用 LLDB 之 前 需要 以 下 两 步 。 


1. 为 了 使 用 LLDB， 先 在 llvm/tods 目 录 下 查看 LLDB 的 源码 : 


svn co http://llvm.org/svn/llvm-project/lldb/trunk lldb 


2. 构建 和 安装 LLVM， 同 时 会 构建 LLDB © 


详细 步骤 


执行 以 下 步骤 o 


1. 为 使 用 LLDB 编 写 一 个 位 单 的 测试 用 例 : 


$ cat lldbexample.c 
#include<stdio.h> 


int globalvar = 0; 


int func2(int a, int b) ( 
globalvar++; 


return a*b; 


} 


int funci(int a, int b) { 
globalvar++; 

int d = a + b; 

int e = a - b; 

int f = func2(d, e); 
return f; 


} 


int main() { 


globalvar++; 
int a = 5; 
int b = 3; 


int c = funci(a,b); 
printf ("%d", c); 


return c; 


2. 使 用 -g 参 数 调用 Clang 编 译 代 码 ， 可 以 产生 调试 信息 : 


$ clang -g lldbexample.c 


3. 使 用 LLDB 调 试 之 前 文件 生成 的 输出 文件 ， 把 文件 名 传递 给 
LLDB， 以 加 载 输出 文件 : 


$ lldb a.out 
(1ldb) target create "a.out" 


Current executable set to 'a.out' (x86 64). 


4. TEE KZO EWT A: 


(1ldb) breakpoint set --name main 
Breakpoint 1: where = a.out'main + 15 at lldbexample.c:20, 


address - 0x00000000004005bf 


5. 使 用 以 下 命令 查看 断 点 集合 的 列表 : 


(1ldb) breakpoint list 
Current breakpoints: 
1: name - 'main', locations - 1 
1.1: where = a.out'main + 15 at lldbexample.c:20, address = 


a.out[0x00000000004005bf], unresolved, hit count = 0 


6. SC ELE B HT ETAT Bg fig E o A E E TE fig "P SEEN UP HIS UB 
点 时 执行 回溯 ，bt 命 令 : 


(lldb) breakpoint command add 1.1 

Enter your debugger command(s). Type 'DONE' to end. 
> bt 

» DONE 


7. 使 用 以 下 命令 执行 文件 ， 它 会 触发 在 main 函 数 的 断 点 ， 然 后 执 
行 回溯 (bt) 命令， 正如 前 一 步 所 设置 的 : 


(1ldb) process launch 

Process 2999 launched: '/home/mayur/book/chap9/a.out' (x86 64) 

Process 2999 stopped 

* thread #1: tid - 2999, 0x00000000004005bf a.out'main + 15 at 

lldbexample.c:20, name = 'a.out', stop reason - breakpoint 1.1 
frame #0: 0x00000000004005bf a.out'main + 15 at 


lldbexample.c:20 


17 


18 
19 int main() { 
-> 20 globalvar++; 
21 int a = 5; 
22 int b = 3; 
23 
(1ldb) bt 


* thread #1: tid - 2999, 0x00000000004005bf a.out'main + 15 at 
lldbexample.c:20, name = 'a.out', stop reason - breakpoint 1.1 

* frame #0: 0x00000000004005bf a.out'main + 15 at 
lldbexample.c:20 

frame #1: 0x00007ffff7a35ec5 libc.so.6' libc start 

main(main=0x00000000004005b0, argc-1, argv-0x00007fffffffda18, 
init-«unavailable», fini-«unavailable», rtld fini- 
«unavailable», 
stack end=0x00007fffffffda08) + 245 at libc-start.c:287 


frame #2: 0x0000000000400469 a.out«/b» 


8. 使 用 以 下 命令 ， 在 全 局 变量 设置 watchpoint: 


(1ldb) watch set var globalvar 
Watchpoint created: Watchpoint 1: addr - 0x00601044 size - 4 
state - 


enabled type - w 


declare Q '/home/mayur/book/chap9/lldbexample.c:2' 
watchpoint spec - 'globalvar' 


new value: 0 


9. 设置 当 globalvar 的 值 为 3 的 时 候 停 止 执 行 ， 使 用 watch 命 令 : 


(lldb) watch modify -c '(globalvar--3)' 
To view list of all watch points: 
(lldb) watch list 
Number of supported hardware watchpoints: 4 
Current watchpoints: 
Watchpoint 1: addr = 0x00601044 size = 4 state = enabled type = 
w 
declare @ '/home/mayur/book/chap9/lldbexample.c:2' 
watchpoint spec = 'globalvar' 
new value: 0 


condition - '(globalvar--3)' 


10. E FH DA P fg EZ JS RESET eo 38 $l|globalvarf f& A 
SANA RA HELE, tH Afunc2 ik at: 


(lldb) thread step-over 
(1ldb) Process 2999 stopped 
* thread #1: tid = 2999, 0x000000000040054b a.out'func2(a-8, 


b=2) + 27 
at lldbexample.c:6, name = 'a.out', stop reason = watchpoint 1 
frame #0: 0x000000000040054b a.out'func2(a=8, b=2) + 27 at 


lldbexample.c:6 


3 
4 int func2(int a, int b) ( 
5 globalvar++; 
-> 6 return a*b; 
7 } 
8 
9 


Watchpoint 1 hit: 
old value: 0 
new value: 3 
(lldb) bt 
* thread #1: tid = 2999, 0x000000000040054b a.out'func2(a-8, 
b=2) + 27 
at lldbexample.c:6, name = 'a.out', stop reason = watchpoint 1 
* frame #0: 0x000000000040054b a.out'func2(a=8, b=2) + 27 at 
lidbexample.c:6 
frame #1: 0x000000000040059c a.out'funci(a=5, b=3) + 60 at 
lidbexample.c:14 
frame #2:  0x00000000004005e9 a.out'main + 57 at 
lidbexample.c:24 
frame #3: 0x00007ffff7a35ec5 libc.so.6' libc start 


main(main=0x00000000004005b0, argc-1, argv-0x00007fffffffda18, 


init-«unavailable», fini-«unavailable», rtld fini- 
«unavailable», 
stack end=0x00007fffffffda08) + 245 at libc-start.c:287 


frame #4: 0x0000000000400469 a.out 


11. fii thread continue 命 令 继 续 执 行 ， 如 果 没 有 遇 到 上 断 点 的 话 ， 
会 执行 到 结束 : 


(lldb) thread continue 
Resuming thread 0x0bb7 in process 2999 
Process 2999 resuming 


Process 2999 exited with status - 16 (0x00000010) 


12. 使 用 以 下 命令 退出 LLDB: 


(lldb) exit 


TRA I 
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使 用 LLVM 通 用 Pass 


本 方 介 绍 LLVM 的 通用 Pass。 如 同名 字 所 上 暗示 的 ， 它 们 是 提供 给 用 
户 帮 助理 解 LLVM 特 定 组 件 的 一 些 通用 工具 ， 通 常 来 说 ， 直 接 查 看 代 
码 来 理解 这 些 组 件 会 非常 困难 。 本 市 会 介绍 两 个 展示 程序 控制 流 图 的 
通用 Pass © 


准备 工作 


你 需要 构建 和 安装 LLVM， 并 安 痰 graphviz 工 具 ， 可 以 选择 从 
http://www.graphviz.org/Download.php 下 载 graphviz， 或 者 如 果 你 机 器 的 
可 用 包 列 表 中 有 这 个 工具 ， 也 可 以 从 包 管 理 絮 进行 安装 。 


详细 步骤 


执行 以 下 步骤 o 


1. 为 运行 通用 Pass 编 写 测试 代码 ， 测 试 代码 包含 if 块 ， 会 在 控制 流 
图 中 创建 一 个 新 的 边 : 


$ cat utility.11 
declare double Qfoo() 


declare double Qbar() 


define double Qbaz(double %x) { 
entry: 
%ifcond = fcmp one double Xx, 0.000000e-00 


br i1 %ifcond, label %then, label %else 


then: ; preds - %entry 
%calltmp - call double Qfoo() 


br label %ifcont 


else: ; preds = %entry 
%calltmp1 = call double Qbar() 


br label %ifcont 
ifcont: ; preds = %else, %then 


%iftmp = phi double [ %calltmp, %then ], [ %calltmp1, %else ] 


ret double %iftmp 


2.351]view-cfg-onlyPass, BERBER NE, A DFE REU: 


$ opt -view-cfg-only utility.11 


3. 使 用 graphviz 工 具 查看 dot 文 件 : 


CFG for *baz’ function 
4. 35 fT view-domPass £ Æ KAA) MELB : 


$ opt -view-dom utility.11 


5. 使 用 graphviz 工 具 查 看 dot 文 件 : 


entry: 


%ifc double %x, 0. a pda +00 


ond = one 
br ty Sie d, label sthen, lab 


ifcont: else: 
%iftmp = phi double [ $calltmp, then ], [ $calltmpl, telse ] Ycalltmpl = call double @bar() 
ret double $iftmp br label $ifcont 


Dominator tree for "baz function 


s D: b double 8foo() 
br label %if 


TRA I 
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